ajax异步加载动态内容爬虫
- 之前在爬取知乎timeline内容时,因为动态加载只爬取到了少量内容,于是研究了下对动态加载页面的爬取。
- 这篇文章主要是对非加密的ajax异步加载内容的爬取,顺便加入了一些json的知识。
- 然鹅很不幸知乎是加密的,所以这个办法并不能解决问题。
- 计划试试selenium+PhantomJS来解决知乎的问题,这个就看下一篇文章了。
- 全部代码见于我的GitHub页面
原料
chrome浏览器
果壳网-科学人 页面
代码
找到异步数据在哪
1.进入果壳网-科学人分页
2.F12打开“审查元素”选则Network窗格并刷新页面以抓包
3.在页面上滑动鼠标滚轮使页面向下
此时可以看到页面是动态加载的
相应的在监控窗口可以看到有数据收发