Selenium 获取 Web 页面信息的全指南

2401_89793006

于 2025-04-17 17:37:42 发布

阅读量1.7k

点赞数 31

分类专栏： python 文章标签： selenium 前端测试工具

本文链接：https://blog.csdn.net/2401_89793006/article/details/147310662

版权

python 专栏收录该内容

13 篇文章

订阅专栏

Selenium 获取 Web 页面信息的全指南

Selenium 是一个功能强大的自动化测试工具，但它也可以用于 web 页面信息的抓取和分析。本文将详细介绍如何使用 Selenium 来获取网页信息，并涵盖从环境搭建到高级技巧的各个方面。

from selenium import webdriver

driver = webdriver.Chrome(executable_path='path/to/chromedriver')

# 访问登录页面
driver.get('https://www.example.com/login')

# 输入用户名和密码
username = driver.find_element_by_id('username')
password = driver.find_element_by_id('password')

username.send_keys('your_username')
password.send_keys('your_password')

# 点击登录按钮
login_button = driver.find_element_by_css_selector('.login-btn')
login_button.click()

# 关闭浏览器
driver.quit()

示例 2：提交表单

from selenium import webdriver

driver = webdriver.Chrome(executable_path='path/to/chromedriver')

# 访问表单页面
driver.get('https://www.example.com/form')

# 填写表单
name = driver.find_element_by_name('name')
email = driver.find_element_by_name('email')

name.send_keys('John Doe')
email.send_keys('john.doe@example.com')

# 上传文件（如果需要）
file_input = driver.find_element_by_css_selector('#file-input')
file_input.send_keys('/path/to/file.txt')

# 提交表单
submit_button = driver.find_element_by_id('submit-btn')
submit_button.click()

driver.quit()

示例 3：获取页面信息并保存

from selenium import webdriver

driver = webdriver.Chrome(executable_path='path/to/chromedriver')

# 访问目标页面
driver.get('https://www.example.com')

# 获取所有链接
links = driver.find_elements_by_css_selector('a[href]')
for link in links:
    print(link.get_attribute('href'))

# 保存页面源代码到文件
with open('page_source.html', 'w', encoding='utf-8') as f:
    f.write(driver.page_source)

driver.quit()

8. 案例分析：从简单到复杂

案例 1：获取新闻标题

假设我们需要从一个新闻网站中提取所有新闻的标题：

from selenium import webdriver

driver = webdriver.Chrome(executable_path='path/to/chromedriver')
driver.get('https://www.news.com')

# 获取所有新闻标题
titles = driver.find_elements_by_css_selector('.news-title')
for title in titles:
    print(title.text)

driver.quit()

案例 2：处理分页

如果目标页面有分页，可以使用循环来逐页抓取数据：

from selenium import webdriver

driver = webdriver.Chrome(executable_path='path/to/chromedriver')

for page in range(1, 6):  # 抓取前5页
    driver.get(f'https://www.example.com?page={page}')
    
    items = driver.find_elements_by_css_selector('.item')
    for item in items:
        print(item.text)
        
driver.quit()