python爬虫：爬取瀑布流型网页图片

最新推荐文章于 2022-01-25 08:18:00 发布

子黍

最新推荐文章于 2022-01-25 08:18:00 发布

阅读量5k

点赞数 3

分类专栏： python

本文链接：https://blog.csdn.net/weixin_41787887/article/details/84704569

版权

本文介绍了如何使用Python爬虫爬取今日头条的瀑布流型网页图片。通过分析请求URL和响应JSON数据，发现通过拼接大图URL前缀和缩略图URL后缀可以获取高清大图链接。最终实现代码成功获取并展示了图片。

摘要由CSDN通过智能技术生成

需求：爬取今日头条街拍或者车辆图

数据分析：

chrome中打开今日头条，搜索“街拍”，
打开F12开发者工具，选择到XHR，进行街拍图搜索；
获取到url=https://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=1&from=search_tab&pd=synthesis
当网页向下滑动时，后面部分才显示出来，XHR中依次增加，发现offset依次增加20。

下面进行代码编写，获取url的响应json.

import requests
import os, pprint
 
class Spider():
    def __init__(self):
        self.url = "https://www.toutiao.com/search_content/?offset=20&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=1&from=search_tab&pd=synthesis"

    def Spider_toutiao(self):
        jsondata = requests.get(self.url)
        data = jsondata.json()["data"]
        pprint.pprint(data)  # 格式化打印获取的json
 
if __name