最近在写起点中文网,需要的内容被渲染了,直接发请求是获取不到的,所以只能使用selenium获取源码,在提取想要的内容(其实不是折磨简单的,有兴趣的研究一下就知道了,后面会写总结的),就顺便写一个总结,selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,比如点击,下拉等,尤其是对JavaScript渲染页面来说很有效果。这篇文章包含了使用selenium操作ChromeDrive(chrome),GeckoDriver(Firefox)和PhantomJS(无界面)。
selenium的安装
(1)首先需要安装好python环境
(2)在cmd下输入:pip install selenium
(3)验证:进入python环境下:import selenium
ChromeDrive的安装及配置
(1)ChromeDrive版本选择,一定要与自己的chrome版本相符,以免报错,参考资料:https://blog.csdn.net/cz9025/article/details/70160273
(2)下载地址:http://chromedriver.storage.googleapis.com/index.html进入后点击install,选择相应的平台及版本。
(3)解压之后找到chromedriver.exe复制粘贴到python的Scripts目录下(推荐使用,以免出错),或者把它的路径添加到环境变量里面
(4)验证:chromedriver
GeckoDriver的安装及配置
(1)下载最新版本以及相应平台:https://github.com/mozilla/geckodriver/releases
(2)找到geckodriver.exe复制粘贴到python的Scripts目录下(推荐使用,以免出错),或者把它的路径添加到环境变量里面
(3)验证:geckodriver
PhantomJS的安装及配置
(1)下载地址:http://phantomjs.org/download.html
(2)找到phantomjs.exe复制粘贴到python的Scripts目录下(推荐使用,以免出错),或者把它的路径添加到环境变量里面
(3)验证:PhantomJS