直接进入正题:一般来说爬虫类框架抓取Ajax动态页面都是通过一些第三方的webkit库去手动执行html页面中的js代码, 最后将生产的html代码交给spider分析。但是一些简单的动态页面比如翻页等动态异步就不用大动干戈的使用Selenium等测试工具框架模拟浏览器执行js操作,直接发送post请求即可。
下面介绍中基协的异步翻页爬取:
创建爬虫不再赘述。
一、页面分析
1.首先右键==》检查==》打开如下界面:
最简单的检验异步方式:点击下一页,发现网页并没有刷新,异步加载石锤了。
2.进入Network调试,使用XHR过滤(XMLHttpRequest对象可以在不向服务器提交整个页面的情况下,实现局部更新网页。)
通过翻页可以看到明显的加载请求:
3.详细请求: