1.selenium+phantomjs
(1)selenium概念: 是一个浏览器的自动化测试工具,通过selenium提供的一些方法可以去操作浏览器,让浏览器做 一些自动化的工作
(2)selenium操作谷歌浏览器: 主要核心:而是selenium操作谷歌浏览器驱动,通过驱动再来操作浏览器
谷歌浏览器驱动下载地址
http://chromedriver.storage.googleapis.com/index.html
http://npm.taobao.org/mirrors/chromedriver/
谷歌驱动和谷歌浏览器版本关系映射表
http://blog.csdn.net/huilan_same/article/details/51896672
安装selenium:pip install selenium
【注】通过selenium操作浏览器的时候,一定要记得停顿,因为是真正的上网过程,要执行其中很多的请求,所以使用selenium非常的慢,效率低.
(3)selenium操作有界面的目的
phantomjs概念: 是一款浏览器,它是一款无界面浏览器。就是专门用来写爬虫代码用的。肯定有浏览器的功能,可以将html、css、图片、js给你显示成图文并茂的形式,phantomjs可以执行网页中的js代码。
网页的呈现形式,很多情况,html中的内容不是直接就有的,而是需要执行js代码,动态的给生成的
(a