最全的Python爬虫干货，大牛原来是这样学成爬神！

最新推荐文章于 2024-07-24 16:19:34 发布

程序员老K

最新推荐文章于 2024-07-24 16:19:34 发布

阅读量713

点赞数 1

文章标签： Python Python爬虫 web爬虫数据挖掘网络爬虫

本文链接：https://blog.csdn.net/KK12345677/article/details/100018667

版权

本次分享从抓取、解析、存储、反爬、加速五个方面介绍了利用 Python 进行网络爬虫开发的相关知识点和技巧，介绍了不同场景下如何采取不同措施高效地进行数据抓取的方法，包括 Web 抓取、App 抓取、数据存储、代理选购、验证码破解、分布式抓取及管理、智能解析等多方面的内容，另外还结合了不同场景介绍了常用的一些工具包，全部内容是我在从事网络爬虫研究过程以来的经验精华总结。

爬取

对于爬取来说，我们需要学会使用不同的方法来应对不同情景下的数据抓取任务。

爬取的目标绝大多数情况下要么是网页，要么是 App，所以这里就分为这两个大类别来进行了介绍。

对于网页来说，我又将其划分为了两种类别，即服务端渲染和客户端渲染，对于 App 来说，我又针对接口的形式进行了四种类别的划分——普通接口、加密参数接口、加密内容接口、非常规协议接口。

所以整个大纲是这样子的：

网页爬取
服务端渲染
客户端渲染
App 爬取
普通接口
加密参数接口
加密内容接口
非常规协议接口

爬取 / 网页爬取

服务端渲染的意思就是页面的结果是由服务器渲染后返回的，有效信息包含在请求的 HTML 页面里面，比如猫眼电影这个站点。客户端渲染的意思就是页面的主要内容由 JavaScript 渲染而成，真实的数据是通过 Ajax 接口等形式获取的，比如淘宝、微博手机版等等站点。

服务端渲染的情况就比较简单了，用一些基本的 HTTP 请求库就可以实现爬取，如 urllib、urllib3、pycurl、hyper、requests、grab 等框架，其中应用最多的可能就是 requests 了。

对于客户端渲染，这里我又划分了四个处理方法：

寻找 Ajax 接口，此种情形可以直接使用 Chrome/Firefox 的开发者工具直接查看 Ajax 具体的请求方式、参数等内容，然后用 HTTP 请求库模拟即可，另外还可以通过设置代理抓包来查看接口，如 Fiddler/Charles。
模拟浏览器执行，此种情形适用于网页接口和逻辑较为复杂的情况，可以直接以可见即可爬的方式进行爬取，如可以使用 Selenium、Splinter、Spynner、pyppeteer、PhantomJS、Splash、requests-html 等来实现。
直接提取 JavaScript 数据，此种情形适用于真实数据没有经过 Ajax 接口获取，而是直接包含在 HTML 结果的某个变量中，直接使用正则表达式将其提取即可。
模拟执行 JavaScript，某些情况下直接模拟浏览器执行效率会偏低，如果我们把 JavaScript 的某些执行和加密逻辑摸清楚了，可以直接执行相关的 JavaScript 来完成逻辑处理和接口请求，比如使用 Selenium、PyE

最低0.47元/天解锁文章

程序员老K

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
最全的Python爬虫干货，大牛原来是这样学成爬神！

本次分享从抓取、解析、存储、反爬、加速五个方面介绍了利用 Python 进行网络爬虫开发的相关知识点和技巧，介绍了不同场景下如何采取不同措施高效地进行数据抓取的方法，包括 Web 抓取、App 抓取、数据存储、代理选购、验证码破解、分布式抓取及管理、智能解析等多方面的内容，另外还结合了不同场景介绍了常用的一些工具包，全部内容是我在从事网络爬虫研究过程以来的经验精华总结。爬取对于爬取来说，我们...
复制链接

扫一扫