需求:爬取今日头条街拍或者车辆图
数据分析:
- chrome中打开今日头条,搜索“街拍”,
- 打开F12开发者工具,选择到XHR,进行街拍图搜索;
- 获取到url=https://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=1&from=search_tab&pd=synthesis
- 当网页向下滑动时,后面部分才显示出来,XHR中依次增加,发现offset依次增加20。
- 下面进行代码编写,获取url的响应json.
import requests
import os, pprint
class Spider():
def __init__(self):
self.url = "https://www.toutiao.com/search_content/?offset=20&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=1&from=search_tab&pd=synthesis"
def Spider_toutiao(self):
jsondata = requests.get(self.url)
data = jsondata.json()["data"]
pprint.pprint(data) # 格式化打印获取的json
if __name