在确认网页是动态网页后,需要获取从网页响应中由JavaScript动态加载生成的信息,在谷歌浏览器中爬取今日头条首页的信息,步骤如下。
1. “F12”键打开今日头条首页的网页调试工具.
2. 点击“Network”选项卡后,发现有很多响应,XHR是Ajax中的概念,表示XML-HTTP-request,一般javascript加载的文件隐藏在JS或者XHR。通过查找发现,今日头条首页各个模块的新闻信息在XHR的Preview中有需要的信息,但是XHR中有很多无用的链接,然后随便单击一个Name查看Preview信息。
假设需要爬取的是24小时热闻的信息,则步骤如下。
1. 找到的“realtime_news”。