Ajax方式加载的网页,我们在用抓包工具抓包的时候,在其html部分返回的固定的界面,是没有包含到网页完整的信息的,其更多的内容是通过json的方式传输到页面上的
Ajax方式加载的页面,其数据来源一定是json,拿到json的话,就拿到了网页的数据。
我们想要拿网页中的json文件,简单的方法,就是通过抓包工具,找到后台传输json文件的地址,在抓包工具中显示的实例(爬取豆瓣网站电影排行榜的的json数据):
先在抓包工具中截获的数据流找到json网页,然后这个网页的header第一行就是其存储的地址,我们可以直接通过构建请求访问这个网页地址,来爬取到我们想要的json文件。