爬取今日头条小心(新)得
最近在学习爬取头条,废话不多说直接简单回顾一下,我想爬取每个搜索页面中的图片链接,并且保存起来,但因为整个网页源码是被js渲染过的,所以无法直接从网页中爬取结果页面链接
如上图所示,爬取的结果不是我们想要的,想要的是axjs请求后被渲染的网页代码。
随便搜索一个关键词后,经过查找发现渲染的文件在xhr的json文件中,如图:
由此可见每个结果页面的链接都在dada:[0:{***,***,art...
原创
2019-04-29 18:29:20 ·
1881 阅读 ·
11 评论