python爬虫 Selenium库安装与使用

最新推荐文章于 2025-04-08 16:42:40 发布

范哥来了

最新推荐文章于 2025-04-08 16:42:40 发布

阅读量1.6k

点赞数 17

文章标签： python 爬虫 selenium

本文链接：https://blog.csdn.net/qq_43286832/article/details/145937488

版权

Selenium 是一个强大的自动化测试工具，它也可以用来进行网页抓取。与传统的请求库（如 requests）不同，Selenium 可以模拟真实用户的行为，比如点击按钮、填写表单等，这对于那些依赖于 JavaScript 动态加载内容的网站来说非常有用。

安装 Selenium

首先确保你的环境中已经安装了 Python 和 pip。然后通过 pip 安装 Selenium：


pip install selenium

如果你使用的是 Python 3 并且默认的 pip 指向 Python 2 的话，可以使用 pip3 来安装：


pip3 install selenium

安装 WebDriver

Selenium 需要 WebDriver 来控制浏览器。不同的浏览器有不同的 WebDriver。这里以 Chrome 浏览器为例说明如何安装和配置 ChromeDriver。

下载 ChromeDriver:
- 访问 ChromeDriver 下载页面。
- 根据你的 Chrome 浏览器版本选择对应的 ChromeDriver 版本下载。
- 解压下载的文件，并将解压后的可执行文件路径添加到系统的 PATH 环境变量中。
验证安装: 打开命令行工具，输入 chromedriver --version，如果显示了版本号，则说明安装成功。

使用 Selenium

下面是一些基本示例来帮助你入门 Selenium。

示例 1: 基本用法


from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

# 初始化 Chrome 浏览器实例
driver = webdriver.Chrome()

try:
    # 打开指定 URL
    driver.get("http://www.example.com")
    
    # 查找元素并打印其文本
    element = driver.find_element(By.TAG_NAME, 'h1')
    print(element.text)
    
    # 在搜索框中输入内容
    search_box = driver.find_element(By.NAME, 'q')
    search_box.send_keys('Selenium')
    search_box.send_keys(Keys.RETURN)
    
    # 等待一段时间让页面加载完成
    time.sleep(5)
    
    # 获取当前页面的标题
    print(driver.title)

finally:
    # 关闭浏览器
    driver.quit()

示例 2: 处理动态加载的内容


from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

# 初始化 Chrome 浏览器实例
driver = webdriver.Chrome()

try:
    # 打开指定 URL
    driver.get("http://example.com/dynamic-content-page")

    # 等待某个特定元素出现
    wait = WebDriverWait(driver, 10)
    element = wait.until(EC.presence_of_element_located((By.ID, 'some-dynamic-element-id')))
    
    # 打印该元素的文本
    print(element.text)

finally:
    # 关闭浏览器
    driver.quit()

示例 3: 执行 JavaScript


from selenium import webdriver

# 初始化 Chrome 浏览器实例
driver = webdriver.Chrome()

try:
    # 打开指定 URL
    driver.get("http://example.com")
    
    # 执行 JavaScript 代码
    result = driver.execute_script("return document.title")
    print(result)  # 输出当前页面的标题

finally:
    # 关闭浏览器
    driver.quit()

注意事项

遵守法律和道德规范：在使用 Selenium 进行网页抓取时，请确保遵守目标网站的服务条款，并尊重 robots.txt 文件的规定。
处理异常：实际应用中应增加错误处理逻辑，例如网络连接问题、元素未找到等情况。
等待机制：对于动态加载的内容，合理设置等待时间或条件等待，避免因加载不完全而导致脚本失败。
性能考虑：Selenium 相比于直接发送 HTTP 请求要慢很多，因为它需要启动整个浏览器进程。因此，在不需要模拟用户行为的情况下，优先考虑使用其他更高效的库如 requests 或 Scrapy。

以上就是关于 Selenium 的安装与基本使用的介绍。希望对你有所帮助！