selenium：网页自动化工具帮你做事，让你无事可做

最新推荐文章于 2025-05-06 15:17:45 发布

九分热度一滴汗水

最新推荐文章于 2025-05-06 15:17:45 发布

阅读量410

点赞数

文章标签： selenium 自动化测试工具

本文链接：https://blog.csdn.net/qq_45058947/article/details/131998608

版权

selenium详解

Selenium 是一个强大的自动化测试工具，主要用于测试网站的用户交互功能。它支持各种操作系统和多种浏览器，如Chrome、Firefox、IE等。Selenium 可以通过编程的方式模拟用户的交互操作，如点击按钮、填写表单、滑动滚动条等。它被广泛应用于爬虫、网站测试等领域。

Selenium 主要由四个部分组成：Selenium IDE，Selenium Grid，Selenium RC 和 Selenium WebDriver。在这里，我们将主要讨论最重要的部分 - Selenium WebDriver，它允许你通过编程的方式控制浏览器。

安装

在使用Selenium之前，我们需要先安装它。你可以使用pip来安装Selenium：

pip install selenium

此外，你还需要下载对应的浏览器驱动，例如如果你使用的是Chrome浏览器，你需要下载ChromeDriver。

使用Selenium打开网页

以下是一个使用Selenium打开网页的简单示例：

from selenium import webdriver

driver = webdriver.Chrome('/path/to/chromedriver')  # 指定ChromeDriver的路径
driver.get('http://www.google.com')  # 打开网页

print(driver.title)  # 打印网页标题

driver.quit()  # 关闭浏览器

在这个例子中，我们首先导入了webdriver模块，然后创建了一个ChromeDriver的实例，通过driver.get方法打开了一个网页，然后打印了网页的标题，最后通过driver.quit方法关闭了浏览器。

元素定位

Selenium 最新的版本更推荐使用 By 类来进行元素的定位，这样可以使你的代码更加清晰和规范。以下是 By 类支持的定位方式：

By.ID: 通过元素的id定位
By.NAME: 通过元素的name属性定位
By.XPATH: 通过XPath表达式定位
By.LINK_TEXT: 通过链接的文本定位
By.PARTIAL_LINK_TEXT: 通过链接的部分文本定位
By.TAG_NAME: 通过元素的标签名定位
By.CLASS_NAME: 通过元素的class属性定位
By.CSS_SELECTOR: 通过CSS选择器定位

使用 By 类来定位元素时，通常需要配合 WebDriverWait 和 expected_conditions 来使用，可以在等待某个条件成立时，找到相应的元素。

以下是一个例子：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome('/path/to/chromedriver')  
driver.get('http://www.some-site.com')

try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, 'my-id'))
    )
finally:
    driver.quit()

在这个例子中，我们设置了一个最长等待时间为10秒，如果在这个时间内，页面上出现了id为’my-id’的元素，那么就返回这个元素，否则就抛出一个异常。

同样，你也可以使用 By 类来定位多个元素，只需要将上面的 presence_of_element_located 替换为 presence_of_all_elements_located 即可：

elements = WebDriverWait(driver, 10).until(
    EC.presence_of_all_elements_located((By.CLASS_NAME, 'my-class'))
)

在这个例子中，我们在10秒内等待页面上出现所有class为’my-class’的元素，然后返回这些元素。

By 类的使用方式更加规范，可以提高代码的可读性，这也是为什么 Selenium 推荐使用 By 类进行元素定位。

元素交互

Selenium不仅可以定位到元素，还可以对元素进行交互，例如点击按钮、输入文本、选择下拉列表等。

以下是一些常用的WebElement对象的方法：

click: 点击元素
send_keys: 输入文本
clear: 清除元素的文本
submit: 提交表单
get_attribute: 获取元素的属性
text: 获取元素的文本
is_displayed: 判断元素是否可见
is_enabled: 判断元素是否启用
is_selected: 判断元素是否被选中（通常用于复选框和单选框）

例如，以下是一个使用Selenium进行元素交互的例子：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome('/path/to/chromedriver')  
driver.get('http://www.some-site.com')

try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, 'my-id'))
    )
finally:
    driver.quit()

在这个例子中，我们首先打开了一个网页，然后等待直到页面上出现了id为’my-id’的元素。

等待

在使用Selenium进行自动化测试时，由于网络延迟或者是页面加载的原因，元素可能不会立即出现在页面上。如果你试图在元素还没有出现的时候进行操作，就可能会抛出NoSuchElementException。

为了解决这个问题，Selenium 提供了等待（Wait）的机制，有两种等待方式：显式等待和隐式等待。

显式等待是指定定一个条件，并且指定一个最长等待时间，如果在这个时间内，条件成立，则继续执行后面的代码，否则抛出一个异常。使用WebDriverWait类和EC模块，可以很方便地实现显式等待。

隐式等待是设置一个最长等待时间，如果在这个时间内页面上的元素还没有加载出来，那么Selenium会每隔一小段时间就自动刷新页面，直到元素加载出来。你可以使用driver.implicitly_wait方法来设置隐式等待时间。

例如，以下是一个使用显式等待的例子：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome('/path/to/chromedriver')  
driver.get('http://www.some-site.com')

try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, 'my-id'))
    )
finally:
    driver.quit()

在这个例子中，我们设置了一个最长等待时间为10秒，如果在这个时间内，页面上出现了

id为’my-id’的元素，那么就返回这个元素，否则就抛出一个异常。

使用Selenium进行爬虫

除了进行自动化测试外，Selenium还经常被用于进行网页爬虫。以下是一个使用Selenium进行爬虫的例子：

from selenium import webdriver

driver = webdriver.Chrome('/path/to/chromedriver')  
driver.get('http://www.some-site.com')

elements = driver.find_elements_by_css_selector('.some-class')

for element in elements:
    print(element.text)

driver.quit()