python爬虫翻页_python爬虫网页，为啥始终无法爬出翻页的内容?

最新推荐文章于 2023-08-07 15:00:10 发布

weixin_39703551

最新推荐文章于 2023-08-07 15:00:10 发布

阅读量693

点赞数

文章标签： python爬虫翻页

该博客主要展示了如何使用Python的requests和pyquery库爬取并解析某网站的影视信息，包括电影名称和演员列表。内容涉及网页请求、HTML解析、数据提取及存储。程序从第一页开始爬取，逐页遍历指定数量的页面。

摘要由CSDN通过智能技术生成

爬出来始终是第一页的内容

import requests

from requests.exceptions import RequestException

from pyquery import PyQuery as pq

import re

import simplejson as json

def get_one_page(url):

try:

response=requests.get(url)

if response.status_code==200:

return response.text

except RequestException:

return None

def parse_one_page(html):

doc = pq(html)

movie=doc('.video_item .sort_lst_tit').text()

actor=doc('.video_item .sort_lst_txt')

actor_list=[]

for items in actor.items():

# 遍历获取到的pyquery对象

item_i="".join(((items.text()).strip()[3:])).split()

item_ii="，".join(item_i)

#去掉空格,并传入list中

actor_list.append(item_ii)

movie_list=movie.split(' ')

# 将电影列表整理成列表

for item in movie_list:

if item=='(2017)':

movie_list.remove('(2017)')

if item=='厉害了,我的国':

actor_list.insert((movie_list.index('厉害了,我的国')),'央视',)

for i in range(len(actor_list)):

#生成可迭代对象

yield {

'movie':movie_list[i],

'actor':actor_list[i]

}

def write_to_file(content):

with open('result.txt','a',encoding='utf-8')as f:

f.write(json.dumps(content,ensure_ascii=False) + '\n')

f.close()

def main(num):

url='http://tv.sogou.com/film/list/style-%E5%96%9C%E5%89%A7+page-'+str(num)

html=get_one_page(url)

parse_one_page(html)

for item in parse_one_page(html):

print(item)

write_to_file(item)

if __name__=='__main__':

for i in range(1,10):

main(i)

weixin_39703551

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。