Python爬虫实战——今日头条图片下载

本文介绍了使用Python爬虫从今日头条网站抓取并下载图片的过程。作者在学习爬虫时发现网络教程中的页面结构已更新,通过分析发现数据是通过Ajax异步加载。通过监控网络请求,找到包含图片信息的JSON数据,并解析提取图片标题和URL,最终实现了图片的本地存储。
摘要由CSDN通过智能技术生成

目前正在自学爬虫,在b站上看到网课都比较过时,页面情况早已改变,对于新手比较不友好,经过尝试成功爬取今日头条图片并下载。

首先是在今日头条下进行搜索:https://www.toutiao.com/search/?keyword=美女
右键点击查看网页源代码后发现并不是我们需要的,经过分析,应该是该数据是通过异步加载Ajax实现的。右键点击检查,点击Network并切换到XHR,此时再刷新页面可以看到offset=0且为json格式的数据,往下滑动可以看到出现offset=20 40,代表页面持续加载。右侧的Request URL链接就是我们需要的。

在这里插入图片描述
下图中的aid等数据就是Request URL后面的参数。
在这里插入图片描述
Preview里的data就是我们需要提取的每条搜索结果的数据内容。

因此,

def get_page(offset, keyword):
    data = {
   
        'aid': 24,
        'app_name': 'web_search',
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': '20',
        'en_qc': '1',
        'cur_tab': '1',
        'from': 'search_tab'
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值