逆向分析爬取动态网页

本文介绍了如何在谷歌浏览器中使用网页调试工具分析并爬取动态网页,特别是针对今日头条首页24小时热闻的爬取。通过观察XHR请求,找到包含所需信息的URL,并展示了一段爬取代码。
摘要由CSDN通过智能技术生成

在确认网页是动态网页后,需要获取从网页响应中由JavaScript动态加载生成的信息,在谷歌浏览器中爬取今日头条首页的信息,步骤如下。

1. “F12”键打开今日头条首页的网页调试工具.

2. 点击“Network”选项卡后,发现有很多响应,XHR是Ajax中的概念,表示XML-HTTP-request,一般javascript加载的文件隐藏在JS或者XHR。通过查找发现,今日头条首页各个模块的新闻信息在XHR的Preview中有需要的信息,但是XHR中有很多无用的链接,然后随便单击一个Name查看Preview信息。

 

假设需要爬取的是24小时热闻的信息,则步骤如下。

1. 找到的“realtime_news”。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值