python爬虫--Selenium的使用

最新推荐文章于 2024-04-26 03:26:35 发布

雀影

最新推荐文章于 2024-04-26 03:26:35 发布

阅读量240

点赞数

分类专栏： Python编程文章标签： python selenium web js

本文链接：https://blog.csdn.net/weixin_43267605/article/details/113500979

版权

Python编程专栏收录该内容

16 篇文章 1 订阅

订阅专栏

1. Selenium

Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。

Selenium 可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生。

Selenium 自己不带浏览器，不支持浏览器的功能，它需要与第三方浏览器结合在一起才能使用。但是我们有时候需要让它内嵌在代码中运行，所以我们可以用一个叫 PhantomJS 的工具代替真实的浏览器。

pip用命令安装：pip install selenium

Selenium 官方参考文档：http://selenium-python.readthedocs.io/index.html

2. PhantomJS

PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器，它会把网站加载到内存并执行页面上的 JavaScript，因为不会展示图形界面，所以运行起来比完整的浏览器要高效

如果我们把 Selenium 和 PhantomJS 结合在一起，就可以运行一个非常强大的网络爬虫了，这个爬虫可以处理 JavaScrip、Cookie、headers，以及任何我们真实用户需要做的事情

2.1python3使用的浏览器

随着Python3的普及，Selenium3也跟上了行程。而Selenium3最大的变化是去掉了Selenium RC，另外就是Webdriver从各自浏览器中脱离，必须单独下载

2.1.1安装ChromeDriver
http://chromedriver.storage.googleapis.com/index.html
注意版本号要对应
下载下来的文件解压到Python36\Scripts
chrome59版本以后可以变成无头的浏览器，加以下参数

options = webdriver.ChromeOptions()
options.add_argument('--headless')
chrome = webdriver.Chrome(chrome_options=options)
chrome.get("http://ww.baidu.com")

3. 使用方式
Selenium 库里有个叫 WebDriver 的 API。WebDriver 有点儿像可以加载网站的浏览器，但是它也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素，与页面上的元素进行交互 (发送文本、点击等)，以及执行其他动作来运行网络爬虫

下面我们使用这个模块访问一下bing:
先分析一下bing搜索引擎的搜索过程，通过F12，查看源代码：
在这里插入图片描述
通过这些信息我们开始构造下面的代码，即可访问。

from selenium import webdriver

chrome = webdriver.Chrome()
chrome.get("http://cn.bing.com")
chrome.find_element_by_id("sb_form_q").send_keys("python")
chrome.find_element_by_id("sb_form_go").click()