多进程，Request+正则表达式爬取榜单类网站

最新推荐文章于 2022-07-08 22:27:45 发布

天涯笨熊

最新推荐文章于 2022-07-08 22:27:45 发布

阅读量6.2w

点赞数 2

分类专栏： Python爬虫实例

本文链接：https://blog.csdn.net/qq_29186489/article/details/78688813

版权

本文是利用多进程、requests库和正则表达式，爬取猫眼电影的TOP100的榜单。
1：requests库的安装及详细用法
关于requests库的具体安装方法，详见博客：http://blog.csdn.net/qq_29186489/article/details/78581249；request库的介绍以及用法，请参见博客：http://blog.csdn.net/qq_29186489/article/details/78620663；
2：正则表达式的详细用法
正则表达式的详细用法请参见博客：http://blog.csdn.net/qq_29186489/article/details/78635640
3：爬取猫眼电影
1）爬虫思路分析
本次爬取的对象是猫眼电影的TOP100的榜单。
先打开猫眼电影的TOP100的榜单的页面，如下图所示：
这里写图片描述
我们的目的是爬取TOP100电影榜单的100部电影的排序、电影名称、电影的主演、上映的时间、分数等信息，打印输出并保存至本地。
2）网页结构分析
观察网页，本次爬取任务大致可以分为三个步骤
爬取单个电影的电影的序号、电影名称、电影的主演、上映的时间等
分析整个网页，遍历获取该页面上所有电影的信息
实现翻页，遍历每个页面获取该榜单所有的100个电影的信息；观察URL，翻页可通过改变offset实现，http://maoyan.com/board/4?offset=（页数-1）*10
利用chrome浏览器，审查网页源代码，每部电影的整体信息都被dd标签包围，如下所示：

最低0.47元/天解锁文章

天涯笨熊

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
多进程，Request+正则表达式爬取榜单类网站

本文是利用多进程、requests库和正则表达式，爬取猫眼电影的TOP100的榜单。 1：requests库的安装及详细用法关于requests库的具体安装方法，详见博客：http://blog.csdn.net/qq_29186489/article/details/78581249；request库的介绍以及用法，请参见博客：http://blog.csdn.net/qq_29186489
复制链接

扫一扫