爬虫入门学习(六)Selenium学习与实战
1 Selenium简介及应用场景
- 简介
Selenium是一个用于测试网站的自动化测试工具,利用它可以驱动浏览器执行特定的动作(即模拟人的操作),如点击、下拉等。它支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。 - 应用场景(针对爬虫)
正对一些JavaScript动态渲染的页面,使用Selenium抓取网页源码非常有效,可以模拟人,做到可见即可爬。
中文官方文档(Selenium-Python)
英文官方文档(Selenium-Python
英文官方文档(混合语言
2 Selenium安装及配置
- 安装Selenium
安装比较简单,建议直接用pip安装
# 安装
pip install selenuim
# 测试
import selenium
- 安装ChromeDriver
Selenium需要浏览器来配合使用,这里我们使用Chrome浏览器,然后我们需要配置ChromeDriver驱动。
这里需要注意浏览器的版本和浏览器的版本ChromeDriver驱动需要一致才行。
查看 浏览器版本:Chrome菜单–>帮助–>关于Google Chrome即可查看,剩下的就是在ChromeDriver官网下载对应版本的ChromeDriver就可以了。 - 配置ChromDriver的环境变量
方法一:Windows下建议直接将chromedriver.exe文件直接拖拽到Python的Scripts目录下。
方法二:把chromedriver.exe文件所在目录设为配置到环境变量。j具体:我的电脑–>属性–>高级系统设置–>环境变量–>系统变量–>Path,将上述路径目录添加到Path的值中。 - 测试Selenium和ChromeDriver是否安装成功
在Python IDLE
from selenium import webdriver
driver = webdriver.Chrome()
成功的话,会如下显示:
3 Selenium基本使用方法
这里仅仅列出了一些最常用的Selenium使用方法,更多的使用方法请参照中文官方文档(Selenium-Python)或者英文官方文档(Selenium-Python。
3.1 查找、定位节点
Selenium提供了8种方法和一个通用函数版本来定位单个节点,同时也相应的提供了8种方法和一个通用函数版本来定位多个节点。
具体见下表:
定位方式 | 定位一个节点 | 定位多个节点 |
---|---|---|
通过class name | find_element_by_class_name(name) | find_elements_by_class_name(name) |
通过css selector | find_element_by_css_selector(css_selector) | find_elements_by_css_selector(css_selector) |
通过id | find_element_by_id(id_) | find_elements_by_id(id_) |
通过link_text | find_element_by_link_text(link_text) | find_elements_by_link_text(link_text) |
通过name | find_element_by_name(name) | find_elements_by_name(name) |
通过partial_link_text | find_element_by_partial_link_text(link_text) | find_elements_by_partial_link_text(link_text) |
通过tag_name | find_element_by_tag_name(name | find_elements_by_tag_name(name |
通过xpath | find_element_by_xpath(xpath) | find_elements_by_xpath(xpath) |
通用方法 | find_element(by=‘id’, value=None) | find_elements(by=‘id’, value=None) |
通用方法示例 | elements = driver.find_element(By.CLASS_NAME, ‘foo’) | elements = driver.find_elements(By.CLASS_NAME, ‘foo’) |
注意定位多个节点就是在element后面加个"s"。
使用selenium模拟登陆163邮箱。
3.2 提取节点信息
提取节点信息的前提是利用上述的定位节点方法选中这个节点。
具体方法和属性和说明如下表:
方法or属性 | 说明 |
---|---|
get_attribute() | 获取属性 |
text | 获取文本信息 |
此外还可以获取节点的id、location、tag_name、size等属性。
3.3 其他方法
方法 | 说明 |
---|---|
send_keys() | 输入文字 |
clear() | 清空文字 |
click() | 点击按钮 |
execute_script() | 执行JavaScript,可以实现下拉进度条等 |
switch_to.frame() | 切换Frame |
back() | 后退 |
forward() | 前进 |
get_cookies() | 获取Cookies |
add_cookie() | 添加一个Cookie |
delete_all_cookies() | 删除所有的Cookies |
3.4 等待
为了解决由于资源受限或网络延迟,短时间内,网页为加载完全,导致找不到目标元素,此时需要延时等待一定时间,确保节点已经加载出来,来使脚本的运行速度与程序的响应速度相匹配,WebDriver为这种情况提供了隐式等待和显式等待两种机制,此外我们也可以用time.sleep()来强制线程等待。下面就来比较一下这三个等待。
强制等待time.sleep
这是最简单粗暴,也是性能最差的选择,因为无论是否提前找到需要的节点,程序都会等待t秒,造成时间浪费。比如,设置time.sleep(10),但是其实我在2s时就找到了,这时候还得等待8s。
# -*- coding: utf-8 -*-
from selenium import webdriver
from time import sleep
driver = webdriver.Chrome()
driver.get('https://huilansame.github.io')
sleep(10) # 强制等待10秒再执行下一步
print driver.current_url
driver.quit()
sleep()是线程等待不是进程等待(除非只有一个线程)
。可以用以下例子测试
import time
from threading import Thread
class worker(Thread):
def run(self):
for x in range(0,11):
print(x)
time.sleep(1)
class waiter(Thread):
def run(self):
for x in range(100,103):
print(x)
time.sleep(5)
def run():
worker().start()
waiter().start()
run()
'''输出
0
100
1
2
3
4
5
101
6
7
8
9
102
10
'''
隐式等待
一旦设置隐式等待时间,就会作用于这个WebDriver实例的整个生命周期(对所有的元素查找都生效),设置隐式等待时间后,Webdriver会在一定时间内持续检测和搜寻DOM,以便于查找一个或多个不是立即加载成功并可用的元素。隐式等待的默认时间是0. WebDriver使用implicitly_wait()来设置等待时间,单位秒。超过等待时间还没找到,就报NoSuchElementException异常。
隐形等待是设置了一个最长等待时间,如果在规定时间内网页加载完成,则执行下一步,否则一直等到时间截止,然后执行下一步。注意这里有一个弊端,那就是程序会一直等待整个页面加载完成,也就是一般情况下你看到浏览器标签栏那个小圈不再转,才会执行下一步,但有时候页面想要的元素早就在加载完成了,但是因为个别js之类的东西特别慢,我仍得等到页面全部完成才能执行下一步,我想等我要的元素出来之后就下一步怎么办?有办法,这就要看selenium提供的另一种等待方式——显性等待wait了。
需要特别说明的是:隐性等待对整个driver的周期都起作用,所以只要设置一次即可。
from selenium import webdriver
ff = webdriver.Firefox()
ff.implicitly_wait(10) # seconds
ff.get("http://somedomain/url_that_delays_loading")
myDynamicElement = ff.find_element_by_id("myDynamicElement")
显示等待
WebDriver提供了WebDriverWait类和expected_conditions模块来实现显式等待。相比隐式等待,显示等待更加智能。显示等待就是设置一个前置条件,在等待时间内,每隔一段时间(默认时0.5s)检查一次前置条件是否满足,满足则执行下一步,超时则报TimeoutException异常。显示等待源码
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait # available since 2.4.0
from selenium.webdriver.support import expected_conditions as EC # available since 2.26.0
ff = webdriver.Firefox()
ff.get("http://somedomain/url_that_delays_loading")
try:
element = WebDriverWait(ff, 10).until(EC.presence_of_element_located((By.ID, "myDynamicElement")))
finally:
ff.quit()
小结:
- 一个没界面的 PhantomJS,用 webdriver.PhantomJS()来代替webdriver.Chrome(),效率比较高。
- 显示等待和隐式等待不要同时用!!!不然可能会导致等待时间不可测!
4 Selenium实战——模拟登录163邮箱
目标:使用Selenium模拟登录163邮箱
完整代码
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@author: Jock
"""
from selenium import webdriver
import time
# 声明浏览器对象
driver = webdriver.Chrome()
# 设置隐式等待10s
driver.implicitly_wait(1)
# 设置访问网址
url = "https://mail.163.com/"
# 访问网址
driver.get(url)
# 这里这个sleep不能省
time.sleep(1)
driver.switch_to.frame(0) # 找到邮箱账号登录框对应的iframe,由于网页中iframe的id是动态的,所以不能用id寻找
name = driver.find_element_by_name('email') # 找到邮箱账号输入框
name.send_keys('帐号') # 将自己的邮箱帐号输入到邮箱账号框中
name = driver.find_element_by_name('password') # 找到密码输入框
name.send_keys('密码') # 输入自己的邮箱密码
login = driver.find_element_by_id('dologin') # 找到登陆按钮
login.click() # 点击登陆按钮
成功后图片