一、分析动态网页
1、分析工具
用Beyond Compare分析网页是否含有动态部分。
2、直接python解析判断
找到你锁需的内容,用常规方式爬取测验,如果不能爬取,则应该考虑是否有动态网页了!!
二、常用方案
1、找到JS文件
我之前已经掌握一种方案,找到动态网页的js文件,而且还非常简单,但是美中不足的是要找到加载出来的js文件,并找到这些动态页面的规律,这里需要靠人为查找。
推荐教程:Python爬取js动态页面
2、python web 引擎
安装:
selenium 的安装很简单:
pip install selenium
phantomjs的安装有点复杂:
先下载安装nodejs,很简单。
如果需要用浏览器显示还要安装对应的浏览器driver:
selenium + chrome/phantomjs教程
直接代码,代码中有详细解释,没解释到的后文会给出解释:<