今天我们来爬取今日头条图集,老司机以街拍为例。
运行平台: Windows
Python版本: Python3.6
IDE: Sublime Text
其他工具: Chrome浏览器
1、网页分析
从打开今日头条首页,搜索“街拍”,下面有四个标签页“综合”、“视频”、“图集”和“用户”,我们依次点击几个标签,页面虽然变化了,但是地址栏的网址并没有变化,说明网页内容是动态加载的。
按“F12”调出Developer Tools,并刷新页面,接下来分析Developer Tools:
①:点击Network
②:选择XHR
③:找以“?offset=“开头的一项并点击,右侧出现详情
④:点击右侧“Header”标签页
⑤:看到请求方式和请求地址
⑥:此处为请求的参数
接下来点击Preview标签页查看返回的数据:
返回数据格式为json,展开“data”字段,并展开第一项,查找“title”,可以看到和网页第一个图集标题一致,说明找对地方了。
继续分析,“data”第一项里有一个“image_detail”字段&#