Python爬虫实战案例一：爬取猫眼电影

酒酿小小丸子

已于 2024-01-16 17:58:14 修改

阅读量2.7k

点赞数 2

文章标签： python 爬虫开发语言数据挖掘学习

于 2023-05-19 11:45:21 首次发布

本文链接：https://blog.csdn.net/2201_75362610/article/details/130763417

版权

在这里插入图片描述

背景

笔者上一篇文章《基于猫眼票房数据的可视化分析》中爬取了猫眼实时票房数据，用于展示近三年电影票房概况。由于数据中缺少导演/演员/编剧阵容等信息，所以爬取猫眼电影数据进行补充。关于爬虫的教学内容，网络上一搜就有很多了，这里我以个人的爬虫习惯，介绍此次过程中所用到的库和代码。流程图，如下图所示：

在这里插入图片描述

抓包

Ajax异步加载的网页，加载数据的URL需要通过抓包获取。一般确认是否异步加载，只需要右键打开网页源代码，如果源码文字内容与前端展示的结果不一致，则属于异步加载。这时需要按F12打开开发者工具的Network，重新刷新网页，就能看到真正的URL。如下图所示，开发者工具中红色框的URL才是真正加载数据的URL。
在这里插入图片描述

concurrent.futures库
- 利用多核CPU提升执行速度。主要包含两个类：ThreadPoolExecutor和ProcessPoolExecutor，当执行属于IO密集型时，使用ThreadPoolExecutor开启多线程。当执行属于CPU密集型时，使用ProcessPoolExecutor开启多线程。
requests库
- 用于发送网络请求。网络请求有get和post两种方式，get()可以直接获取数据，post()需要传递参数后才能获取数据。一般网站都是get方式，若需要登录后才能看到数据的网页则属于post方式。而爬虫中post()通常和session()搭配使用，session()用于保存登录后的cookie。
Beautifulsoup库
- 用于解析HTML。爬虫需要懂得基本的HTML语言，通过定位不同的标签来提取数据。
re库
- 正则表达式，用来检索或替换符合某个模式(规则)的文本。爬虫过程中如果遇到不能直接提取的脏数据时，一般采用re解决。re功能非常强大，而且上手不难，很多方面都可以运用它，所以掌握re也是一个必备技能。
redis数据库
- 非关系型数据库，可以存储多种抽象数据类型。由于读写简单快捷，所以笔者将其当做缓存数据库，用于存储待爬取URL，再配合ThreadPoolExecutor多线程进行爬取，满足高并发需求。
Mysql数据库
- 关系型数据库，用于存储最终结果。

实例

首先，确认URL是否需要抓包获取，还是可以直接手工构建。如下图所示，源码内容与前端展示是一致的，所以可以根据传递的参数内容，直接构建URL。

在这里插入图片描述

在这里插入图片描述
然后，再根据类型、区域、年代这三个参数，构建首页URL。

接着，获取每种分类的页面数量，再构建页面URL，再存到redis中。这么做的原因是猫眼页面查看数量是有限制的，通过遍历所有分类构建URL可以绕过这个限制。

在这里插入图片描述

然后，爬取每个页面中影片的ID，再构建详情页URL。由于多线程爬取速度很快，会导致IP暂时被限制登录，所以需要进行判断。通过while语句识别队列是否为空，来决定是否继续执行。此外，暂无评分的影片不属于考虑范围，所以剔除。
在这里插入图片描述

最后，爬取每条详情页URL的信息，同时也需要判断IP是否被限制。由于无票房的影片不属于考虑范围，所以剔除。将结果直接保存到Mysql中。

在这里插入图片描述

猫眼电影中，2011年至今，有评分有票房的影片有10746条。

在这里插入图片描述

结语

爬虫入门并不难，熟悉之后爬取一般网站都是非常容易的，难处在于有爬虫就会有反爬虫，主流网站都是有限制爬虫的，如何解决反爬虫机制才是难点。

福利：如果你对Python感兴趣，小编便准备了这套python学习资料

对于0基础小白入门：

如果你是零基础小白，想快速入门Python是可以考虑的。
一方面是学习时间相对较短，学习内容更全面更集中。二方面是可以找到适合自己的学习方案

包括：Python永久使用安装包、Python web开发，Python爬虫，Python数据分析，人工智能、机器学习等学习教程。带你从零基础系统性的学好Python！

零基础Python学习资源介绍

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
在这里插入图片描述

二、Python学习软件

工欲善其事，必先利其器。学习Python常用的开发软件都在这里了！
在这里插入图片描述

三、Python入门学习视频

还有很多适合0基础入门的学习视频，有了这些视频，轻轻松松上手Python~ 在这里插入图片描述

四、Python练习题

每节视频课后，都有对应的练习题哦，可以检验学习成果哈哈！
在这里插入图片描述

五、Python实战案例

光学理论是没用的，要学会跟着一起敲代码，动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。这份资料也包含在内的哈~ 在这里插入图片描述

六、Python面试资料

我们学会了Python之后，有了技能就可以出去找工作啦！下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述

七、资料领取

上述完整版Python全套学习资料已经上传CSDN官方，需要的小伙伴可自行微信扫描下方CSDN官方认证二维码输入“领取资料”免费领取！！

酒酿小小丸子

关注

2
点赞
踩
30

收藏

觉得还不错? 一键收藏
1
评论
Python爬虫实战案例一：爬取猫眼电影

笔者上一篇文章《基于猫眼票房数据的可视化分析》中爬取了猫眼实时票房数据，用于展示近三年电影票房概况。由于数据中缺少导演/演员/编剧阵容等信息，所以爬取猫眼电影数据进行补充。关于爬虫的教学内容，网络上一搜就有很多了，这里我以个人的爬虫习惯，介绍此次过程中所用到的库和代码。
复制链接

扫一扫