python爬虫爬取豆瓣电影Top250，原理讲解

最新推荐文章于 2024-04-10 20:08:51 发布

2401_83974590

最新推荐文章于 2024-04-10 20:08:51 发布

阅读量871

点赞数 19

分类专栏： 2024年程序员学习文章标签： python 爬虫前端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_83974590/article/details/137236077

版权

res = requests.get(url=url, headers=headers)

response = res.content.decode(“utf-8”)

#电影名称

movie_title=html.xpath(“//div[@class=‘hd’]//a//span[1]//text()”)

#电影评分

movie_score=html.xpath(‘//div[@class=“star”]//span[2]//text()’)

#电影排名

movie_degree=html.xpath(‘//div[@class=“item”]//div//em//text()’)

#电影海报地址

movie_poster=html.xpath(‘//div[@class=“pic”]//a//img/@src’)

#导演,使用正则

movie_director = re.findall(r"导演:(.*?);", response)

a = “”.join(movie_director).split(“&nbsp”)#因为使用的正则抓取下来的字符串含有&nbsp，使用split()函数进行切分

movie_director = a[:25]

if movie_director==“”:

movie_director=“”

else:

movie_director=movie_director

#主演，使用正则

movie_main_act = re.findall(“主演: (.*)
”, response)

movie_main_act = “”.join(movie_main_act).split(“…”)

if movie_main_act==“”:

movie_main_act=“”

else:

movie_main_act=movie_main_act

#上映日期

movie_datatime= re.findall(r"(\d*) ", response)

b = “”.join(movie_datatime)#转化为字符串

movie_datatime = [b[i:i + 4] for i in range(0, len(b), 4)]#转换的字符串是一对数字如199419931994…,所以进行切分 4个一切就是年份

if movie_datatime==“”:

movie_datatime=“”

else:

mo

最低0.47元/天解锁文章

关注

19
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
python爬虫爬取豆瓣电影Top250，原理讲解

电影名称#电影评分#电影排名#电影海报地址#导演,使用正则movie_director = re.findall(r"导演:(.*?a = “”.join(movie_director).split(“ ”)#因为使用的正则抓取下来的字符串含有，使用split()函数进行切分else:#主演，使用正则movie_main_act = re.findall(“主演: (.*)else:#上映日期b = “”.join(movie_datatime)#转化为字符串。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。