Seleniumd介绍
在写Python爬虫的时候,最麻烦的不是那些海量的静态网站,而是那些通过JavaScript获取数据的站点。Python本身对js的支持不好,所以就有良心的开发者来做贡献了,这就是Selenium,他本身可以模拟真实的浏览器,浏览器所具有的功能他都有哦,加载js更是小菜了。
Selenium的安装:
使用pip命令,你可以像下面这样安装 selenium:
pip install selenium
大家可以参考一下中文文档。
浏览器的选择:
在写爬虫的时候,用到最多的就是Selenium的Webdriver,当然,webdriver也不可能支持所有的浏览器,让我们看看他支持哪些浏览器吧:
1 from selenium importwebdriver2 help(webdriver)3
4 PACKAGE CONTENTS5 android (package)6 blackberry (package)7 chrome (package)8 common (package)9 edge (package)10 firefox (package)11 ie (package)12 opera (package)13 phantomjs (package)14 remote (package)15 safari (package)16 support (package)17
可以看出支持的浏览器还是比较丰富的,移动端到电脑端应由具有。
然而,个人觉得在写爬虫的时候,更推荐使用PhantomJS:
PhantomJS介绍:
(1)一个基于webkit内核的无头浏览器,即没有U