今日头条爬虫实战----爬取图片

最新推荐文章于 2022-02-25 11:53:42 发布

Blank_spaces

最新推荐文章于 2022-02-25 11:53:42 发布

阅读量606

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Blank_spaces/article/details/106547570

版权

本文介绍了如何使用Python模拟Ajax请求爬取今日头条搜索结果中的图片。通过分析Chrome的网络请求，找到数据接口，提取图片URL并转换为大图格式，最后使用多进程下载图片并按标题分类保存。

摘要由CSDN通过智能技术生成

点击上方“蓝字”关注我们

今日头条爬虫实战

Mar 27, 2020

本期介绍通过在头条中搜索关键词后，分析ajax内容来爬取相关图片

本文约1.8k字，预计阅读10分钟。

有时候我们在用「requests」抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用 requests得到的结果并没有。这是因为 requests获取的都是原始的HTML 文档，而浏览器中的页面则是经过 JavaScript处理数据后生成的结果，这些数据的来源有多种，可能是通过 Ajax加载的，可能是包含在 HTML 文档中的，也可能是经过 JavaScript和特定算法计算后生成的。

对于第一种情况，数据加载是一种异步加载方式，原始的页面最初不会包含某些数据，原始页面加载完后，会再向服务器请求某个接口获取数据，然后数据才被处理从而呈现到网页上，这其实就是发送了一个「Ajax」请求。

所以如果遇到这样的页面，直接利用 requests等库来抓取原始页面，是无法获取到有效数据的，这时需要分析网页后台向接口发送的「 Ajax」请求，如果可以用「 requests」来模拟「Ajax」请求，那么就可以成功抓取了。

页面分析

打开Chrome/Safrai中的「检查」---「网络」，在头条官网上进行搜索，例如：天气之子，向下滚动，加载所有的信息，部分结果如下所示：

选择

最低0.47元/天解锁文章

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
今日头条爬虫实战----爬取图片

点击上方“蓝字”关注我们今日头条爬虫实战Mar 27, 2020本期介绍通过在头条中搜索关键词后，分析ajax内容来爬取相关图片本文约1.8k字，预计阅读10分钟。有时候我们在用「re...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。