项目效果
爬取头条热榜信息,将其保存到JSON文件中去。
结尾附全部代码,可直接运行学习。供自己学习分享,差错之处请指正。
所需准备
(1)请求网页需要用到requests库。
(2)保存JSON文件时要调用json库。
步骤
头条页面热榜信息再我们用requests库直接请求时也可以获得其源代码信息,本项目目的时学习Ajax请求,故使用分析Ajax请求来获取信息,最终将其保存到JSON文件中。
1、分析Ajax,获取所需URL
通过开发者工具中,筛选xhr请求,我们可以看到hot-board字样,可以分析出这个可能是热榜信息,打开预览后,我们发现确实是。故将这个请求的URL作为我们所需要请求的。
# 获取xhr里的URL
base_url = 'https://www.toutiao.com/hot-event/hot-board/?origin=toutiao_pc&_signature=_02B4Z6wo00f01-HyKHQAAIDAScnAofX7ypPh1izAAJ4ysi0n4XPfB7444ACeTFOQDj9hjC3lzL6udtOfAdqL7eATgVrMUSt1nW1Qb4xQGsqRQzWYVW8mzbN-E06oUQJeUca2kwcvYRO3ykI-a3&#