工具
from urllib.parse import urlencode
import requests
网页
- 进入今日头条,搜索图片新闻
- 往下进行网页刷新的时候,按f12选择xhr进行筛选可以看到ajax传值
- 此处用urlencode来进行url编码
- 其实没怎么进行数据处理,只是学习一下爬取的内容
要注意的地方
- 请求头要全,出了表明是ajax之外其他的也需要,不然爬不到数据
- 最后一个参数timestamp是时间戳,自己随便弄一个就行
- 爬取的数量通过offset来定义,这个我改成固定的参数了
代码
from urllib.parse import urlencode
import requests
base_url = 'https://www.toutiao.com/api/search/content/?'
headers = {
'accept': 'application/json, text/javascript',
'accept-encoding': 'gzip, deflate, br',
'accept-language': 'zh-CN,zh;q=0.9',
'content-type': 'application/x-www-form-urlencoded',
'cookie': 'tt_webid=6786617025860912652; utm_source=huawei_llq_api; tt_webid=67866170258609126