python爬取电影票房前50_爬虫实战【4】Python获取猫眼电影最受期待榜的50部电影...

weixin_39549312

于 2020-12-13 16:56:23 发布

阅读量1.1k

点赞数

文章标签： python爬取电影票房前50

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39549312/article/details/111420041

版权

本文介绍如何使用Python爬取猫眼电影的最受期待榜，详细讲解了设置user-agent、解析网页源码、正则表达式分组以及多进程下载数据的过程，最终将数据保存为json文件。

摘要由CSDN通过智能技术生成

前面几天介绍的都是博客园的内容，今天我们切换一下，了解一下大家都感兴趣的信息，比如最近有啥电影是万众期待的？

猫眼电影是了解这些信息的好地方，在猫眼电影中有5个榜单，其中最受期待榜就是我们今天要爬取的对象。这个榜单的数据来源于猫眼电影库，按照之前30天的想看总数量从高到低排列，取前50名。

我们先看一下这个表单中包含什么内容：

【插入图片，6猫眼榜单示例】

具体的信息有”排名，电影海报，电影名称，主演，上映时间“以及想看人数，今天我们主要关注前面5个信息的收集。

之前我们用正则表达式，在网页源代码中匹配了某一篇文章的标题，大家可能还有印象，这次我们还要用正则表达式来一次爬取多个内容。

另外，也尝试一下requests库。

第一步如何获取网页的源码？

我们先分析一下这个榜单页面，跟之前博客园的大概是类似的。

url=http://maoyan.com/board/6?offset=0

上面是第一页的榜单地址，我们一眼就关注到了offset这个值，毫无疑问，后面的页面都是将offset改变就能获取到了。

来看一下第二页：

http://maoyan.com/board/6?offset=10

不一样的地方，offset每次增加了10，而不是之前博客园中的1.

无所谓，都是小case。

来来来，我们使用requests来爬一下第一页的源码看看。

import requests

#初始的代码

def get_html(url):

response=requests.get(url)

if response.status_code==200:

html=response.content.decode('utf-8')

return html

else:

return None

requests的get方法返回了一个response对象，我们根据这个response的状态码status_code就可以判断是否返回正常，200一般是OK的。

然后要对返

最低0.47元/天解锁文章

weixin_39549312

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取电影票房前50_爬虫实战【4】Python获取猫眼电影最受期待榜的50部电影...

前面几天介绍的都是博客园的内容，今天我们切换一下，了解一下大家都感兴趣的信息，比如最近有啥电影是万众期待的？猫眼电影是了解这些信息的好地方，在猫眼电影中有5个榜单，其中最受期待榜就是我们今天要爬取的对象。这个榜单的数据来源于猫眼电影库，按照之前30天的想看总数量从高到低排列，取前50名。我们先看一下这个表单中包含什么内容：【插入图片，6猫眼榜单示例】具体的信息有”排名，电影海报，电影名称，主演，上...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。