Python爬虫 selenium+PhantomJS 介绍、安装、使用

之前用Java做过爬虫,也用到过selenium和PhantomJS。最近痴迷于python爬虫,将selenium+PhantomJS在python中的应用详细总结一下。

一、Selenium介绍

Selenium 是什么?一句话,自动化测试工具。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现Web界面的测试。换句话说叫 Selenium 支持这些浏览器驱动。Selenium支持多种语言开发,比如 Java,C,Ruby等等,有 Python 吗?那是必须的!安装只要cmd中 pip install selenium 即可。

二、爬虫为什么要用selenium

对于一般网站来说scrapy、requests、beautifulsoup等都可以爬取,但是有些信息需要执行js才能显现,而且你肉眼所能看到的基本都能爬取下来,在学习中遇到了,就记录下来方便以后查看。

 webdrive是selenium中一个函数:
 

1 from selenium import webdriver
2 driver = webdriver.PhantomJS()
3 driver.get('网址')

其中PhantomJS同时可以换成Chrome、Firefox、Ie等等,但是PhantomJS是一个无头的浏览器,运行是不会跳出相应的浏览器,运行相对效率较高。在调试中可以先换成Chrome,方便调试,最后再换成PhantomJS即可。

三、Selenium安装

1、cmd中 pip install selenium
2、通过PyCharm安装第三方包的方法 入下图:
(1):

这里写图片描述

(2):
这里写图片描述

四、PhantomJS介绍

PhantomJS是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于webkit浏览器做的事情,它都能做到。它不仅是个隐形的浏览器,提供了诸如CSS选择器、支持Web标准、DOM操作、JSON、HTML5、Canvas、SVG等,同时也提供了处理文件I/O的操作,从而使你可以向操作系统读写文件等。PhantomJS的用处可谓非常广泛,诸如前端无界面自动化测试(需要结合Jasmin)、网络监测、网页截屏等。

  PhantomJS官方地址:http://phantomjs.org/

  PhantomJS官方API:http://phantomjs.org/api/

  PhantomJS官方示例:http://phantomjs.org/examples/

  PhantomJS GitHub:https://github.com/ariya/phantomjs/

五、PhantomJS安装

下载:http://phantomjs.org/download.html
下载后解压:
这里写图片描述

把下载下来的phantomjs.exe移到你所用python文件夹下的Script中就可以使用了这里写图片描述

安装完毕,下面进行测试一下:

这里写图片描述

from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get("http://hotel.qunar.com/")
data = driver.title
print data
  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值