Python爬虫实战——今日头条图片下载

阿贾克斯Ajax在学习

于 2020-03-03 16:49:46 发布

阅读量1.4k

点赞数

分类专栏：爬虫实战文章标签： python 数据挖掘 ajax

本文链接：https://blog.csdn.net/DAIBISON/article/details/104635210

版权

本文介绍了使用Python爬虫从今日头条网站抓取并下载图片的过程。作者在学习爬虫时发现网络教程中的页面结构已更新，通过分析发现数据是通过Ajax异步加载。通过监控网络请求，找到包含图片信息的JSON数据，并解析提取图片标题和URL，最终实现了图片的本地存储。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目前正在自学爬虫，在b站上看到网课都比较过时，页面情况早已改变，对于新手比较不友好，经过尝试成功爬取今日头条图片并下载。

首先是在今日头条下进行搜索：https://www.toutiao.com/search/?keyword=美女
右键点击查看网页源代码后发现并不是我们需要的，经过分析，应该是该数据是通过异步加载Ajax实现的。右键点击检查，点击Network并切换到XHR，此时再刷新页面可以看到offset=0且为json格式的数据，往下滑动可以看到出现offset=20 40，代表页面持续加载。右侧的Request URL链接就是我们需要的。

在这里插入图片描述
下图中的aid等数据就是Request URL后面的参数。

Preview里的data就是我们需要提取的每条搜索结果的数据内容。

因此，

def get_page(offset, keyword):
    data = {
   
        'aid': 24,
        'app_name': 'web_search',
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': '20',
        'en_qc': '1',
        'cur_tab': '1',
        'from': 'search_tab'