在确认网页是动态网页后,需要获取从网页响应中由JavaScript动态加载生成的信息,在谷歌浏览器中爬取今日头条首页的信息,步骤如下。
1. “F12”键打开今日头条首页的网页调试工具.

2. 点击“Network”选项卡后,发现有很多响应,XHR是Ajax中的概念,表示XML-HTTP-request,一般javascript加载的文件隐藏在JS或者XHR。通过查找发现,今日头条首页各个模块的新闻信息在XHR的Preview中有需要的信息,但是XHR中有很多无用的链接,然后随便单击一个Name查看Preview信息。


假设需要爬取的是24小时热闻的信息,则步骤如下。
1. 找到的“realtime_news”。

本文介绍了如何在谷歌浏览器中使用网页调试工具分析并爬取动态网页,特别是针对今日头条首页24小时热闻的爬取。通过观察XHR请求,找到包含所需信息的URL,并展示了一段爬取代码。
最低0.47元/天 解锁文章

1万+

被折叠的 条评论
为什么被折叠?



