爬虫入门学习(六)Selenium学习与实战

1 Selenium简介及应用场景

  • 简介
    Selenium是一个用于测试网站的自动化测试工具,利用它可以驱动浏览器执行特定的动作(即模拟人的操作),如点击、下拉等。它支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。
  • 应用场景(针对爬虫)
    正对一些JavaScript动态渲染的页面,使用Selenium抓取网页源码非常有效,可以模拟人,做到可见即可爬。
    中文官方文档(Selenium-Python)
    英文官方文档(Selenium-Python
    英文官方文档(混合语言

2 Selenium安装及配置

  • 安装Selenium
    安装比较简单,建议直接用pip安装
# 安装
pip install selenuim
# 测试
import selenium
  • 安装ChromeDriver
    Selenium需要浏览器来配合使用,这里我们使用Chrome浏览器,然后我们需要配置ChromeDriver驱动。
    这里需要注意浏览器的版本和浏览器的版本ChromeDriver驱动需要一致才行。
    查看 浏览器版本:Chrome菜单–>帮助–>关于Google Chrome即可查看,剩下的就是在ChromeDriver官网下载对应版本的ChromeDriver就可以了。
  • 配置ChromDriver的环境变量
    方法一:Windows下建议直接将chromedriver.exe文件直接拖拽到Python的Scripts目录下。
    方法二:把chromedriver.exe文件所在目录设为配置到环境变量。j具体:我的电脑–>属性–>高级系统设置–>环境变量–>系统变量–>Path,将上述路径目录添加到Path的值中。
  • 测试Selenium和ChromeDriver是否安装成功
    在Python IDLE
from selenium import webdriver

driver = webdriver.Chrome()

成功的话,会如下显示:
在这里插入图片描述

3 Selenium基本使用方法

这里仅仅列出了一些最常用的Selenium使用方法,更多的使用方法请参照中文官方文档(Selenium-Python)或者英文官方文档(Selenium-Python

3.1 查找、定位节点

Selenium提供了8种方法和一个通用函数版本来定位单个节点,同时也相应的提供了8种方法和一个通用函数版本来定位多个节点。
具体见下表:

定位方式定位一个节点定位多个节点
通过class namefind_element_by_class_name(name)find_elements_by_class_name(name)
通过css selectorfind_element_by_css_selector(css_selector)find_elements_by_css_selector(css_selector)
通过idfind_element_by_id(id_)find_elements_by_id(id_)
通过link_textfind_element_by_link_text(link_text)find_elements_by_link_text(link_text)
通过namefind_element_by_name(name)find_elements_by_name(name)
通过partial_link_textfind_element_by_partial_link_text(link_text)find_elements_by_partial_link_text(link_text)
通过tag_namefind_element_by_tag_name(namefind_elements_by_tag_name(name
通过xpathfind_element_by_xpath(xpath)find_elements_by_xpath(xpath)
通用方法find_element(by=‘id’, value=None)find_elements(by=‘id’, value=None)
通用方法示例elements = driver.find_element(By.CLASS_NAME, ‘foo’)elements = driver.find_elements(By.CLASS_NAME, ‘foo’)

注意定位多个节点就是在element后面加个"s"
使用selenium模拟登陆163邮箱。

3.2 提取节点信息

提取节点信息的前提是利用上述的定位节点方法选中这个节点。
具体方法和属性和说明如下表:

方法or属性说明
get_attribute()获取属性
text获取文本信息

此外还可以获取节点的id、location、tag_name、size等属性。

3.3 其他方法

方法说明
send_keys()输入文字
clear()清空文字
click()点击按钮
execute_script()执行JavaScript,可以实现下拉进度条等
switch_to.frame()切换Frame
back()后退
forward()前进
get_cookies()获取Cookies
add_cookie()添加一个Cookie
delete_all_cookies()删除所有的Cookies

3.4 等待

为了解决由于资源受限或网络延迟,短时间内,网页为加载完全,导致找不到目标元素,此时需要延时等待一定时间,确保节点已经加载出来,来使脚本的运行速度与程序的响应速度相匹配,WebDriver为这种情况提供了隐式等待和显式等待两种机制,此外我们也可以用time.sleep()来强制线程等待。下面就来比较一下这三个等待。

强制等待time.sleep

这是最简单粗暴,也是性能最差的选择,因为无论是否提前找到需要的节点,程序都会等待t秒,造成时间浪费。比如,设置time.sleep(10),但是其实我在2s时就找到了,这时候还得等待8s。

# -*- coding: utf-8 -*-
from selenium import webdriver
from time import sleep

driver = webdriver.Chrome()
driver.get('https://huilansame.github.io')

sleep(10) # 强制等待10秒再执行下一步

print driver.current_url
driver.quit()

sleep()是线程等待不是进程等待(除非只有一个线程)。可以用以下例子测试

import time
from threading import Thread

class worker(Thread):
    def run(self):
        for x in range(0,11):
            print(x)
            time.sleep(1)

class waiter(Thread):
    def run(self):
        for x in range(100,103):
            print(x)
            time.sleep(5)

def run():
    worker().start()
    waiter().start()

run()
'''输出
0
100
1
2
3
4
5
101
6
7
8
9
102
10
'''

隐式等待

一旦设置隐式等待时间,就会作用于这个WebDriver实例的整个生命周期(对所有的元素查找都生效),设置隐式等待时间后,Webdriver会在一定时间内持续检测和搜寻DOM,以便于查找一个或多个不是立即加载成功并可用的元素。隐式等待的默认时间是0. WebDriver使用implicitly_wait()来设置等待时间,单位秒。超过等待时间还没找到,就报NoSuchElementException异常。
隐形等待是设置了一个最长等待时间,如果在规定时间内网页加载完成,则执行下一步,否则一直等到时间截止,然后执行下一步。注意这里有一个弊端,那就是程序会一直等待整个页面加载完成,也就是一般情况下你看到浏览器标签栏那个小圈不再转,才会执行下一步,但有时候页面想要的元素早就在加载完成了,但是因为个别js之类的东西特别慢,我仍得等到页面全部完成才能执行下一步,我想等我要的元素出来之后就下一步怎么办?有办法,这就要看selenium提供的另一种等待方式——显性等待wait了。
需要特别说明的是:隐性等待对整个driver的周期都起作用,所以只要设置一次即可。

from selenium import webdriver

ff = webdriver.Firefox()
ff.implicitly_wait(10)  # seconds
ff.get("http://somedomain/url_that_delays_loading")
myDynamicElement = ff.find_element_by_id("myDynamicElement")

显示等待

WebDriver提供了WebDriverWait类和expected_conditions模块来实现显式等待。相比隐式等待,显示等待更加智能。显示等待就是设置一个前置条件,在等待时间内,每隔一段时间(默认时0.5s)检查一次前置条件是否满足,满足则执行下一步,超时则报TimeoutException异常。显示等待源码

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait # available since 2.4.0
from selenium.webdriver.support import expected_conditions as EC # available since 2.26.0

ff = webdriver.Firefox()
ff.get("http://somedomain/url_that_delays_loading")
try:
    element = WebDriverWait(ff, 10).until(EC.presence_of_element_located((By.ID, "myDynamicElement")))
finally:
    ff.quit()

小结:

  1. 一个没界面的 PhantomJS,用 webdriver.PhantomJS()来代替webdriver.Chrome(),效率比较高。
  2. 显示等待和隐式等待不要同时用!!!不然可能会导致等待时间不可测!

4 Selenium实战——模拟登录163邮箱

目标:使用Selenium模拟登录163邮箱
完整代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@author: Jock
"""

from selenium import webdriver
import time

# 声明浏览器对象
driver = webdriver.Chrome()
# 设置隐式等待10s
driver.implicitly_wait(1)
# 设置访问网址
url = "https://mail.163.com/"
# 访问网址
driver.get(url)
# 这里这个sleep不能省
time.sleep(1)
driver.switch_to.frame(0)  # 找到邮箱账号登录框对应的iframe,由于网页中iframe的id是动态的,所以不能用id寻找
name = driver.find_element_by_name('email')  # 找到邮箱账号输入框
name.send_keys('帐号') # 将自己的邮箱帐号输入到邮箱账号框中
name = driver.find_element_by_name('password')  # 找到密码输入框
name.send_keys('密码') # 输入自己的邮箱密码
login = driver.find_element_by_id('dologin')  # 找到登陆按钮
login.click()  # 点击登陆按钮

成功后图片
在这里插入图片描述

5 参考资料

  1. Python selenium —— 一定要会用selenium的等待,三种等待方式解读
  2. 中文官方文档(Selenium-Python)
  3. 英文官方文档(Selenium-Python)
  4. 英文官方文档(混合语言)
  5. 一周爬虫集训任务三:学习selenium+IP相关知识
  6. Python 爬虫基础Selenium库的使用(二十二01)
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值