【Python爬虫详解】第六篇：处理动态加载的网页内容

Luck_ff0810

于 2025-04-30 08:30:00 发布

阅读量1k

点赞数 26

分类专栏：爬虫 Python 文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/Luck_ff/article/details/147618273

版权

Python 同时被 2 个专栏收录

12 篇文章

订阅专栏

爬虫

9 篇文章

订阅专栏

在数据采集的道路上，当静态解析力有不逮时，我们需要让爬虫"活"过来——本文将带您进入动态网页抓取的世界，体验用代码操控真实浏览器的神奇力量。

一、为什么需要浏览器自动化？

在前几篇教程中，我们处理的多是静态网页内容。但现代Web应用中，以下场景越来越普遍：

动态加载内容：通过Ajax/XHR异步加载数据
复杂用户交互：需要点击/滚动才能显示的内容
反爬机制：验证码、行为验证等防护措施
单页应用(SPA)：基于JavaScript的页面渲染

此时传统HTTP请求捉襟见肘，我们需要能真实模拟浏览器行为的工具——这就是Selenium的舞台。

二、Selenium环境搭建

1. 安装组件

# 安装Python库
pip install selenium

# 下载浏览器驱动（以Chrome为例）
# 版本需与本地Chrome一致：chrome://settings/help
# 下载地址：https://sites.google.com/chromium.org/driver/

2. 驱动配置指南

浏览器	驱动名称	环境变量配置
Chrome	chromedriver	PATH或executable_path指定
Firefox	geckodriver	同上
Edge	msedgedriver	同上

推荐将驱动放在项目目录或系统PATH路径。

三、Selenium基础操作

1. 浏览器初始化

from selenium import webdriver
from selenium.webdriver.common.by import By

# 创建浏览器实例
options = webdriver.ChromeOptions()
options.add_argument('--headless')  # 无头模式
options.add_argument('--disable-gpu')  # 禁用GPU加速

driver = webdriver.Chrome(options=options)
driver.implicitly_wait(10)  # 隐式等待10秒

# 访问页面
driver.get('https://www.example.com')

# 获取页面信息
print(f"当前标题：{driver.title}")
print(f"当前URL：{driver.current_url}")

# 关闭浏览器
driver.quit()

2. 元素定位八大方法

# 通过ID定位
search_box = driver.find_element(By.ID, 'q')

# 通过Class定位
items = driver.find_elements(By.CLASS_NAME, 'item')

# 通过标签名定位
images = driver.find_elements(By.TAG_NAME, 'img')

# 通过名称属性定位
submit_btn = driver.find_element(By.NAME, 'submit')

# 通过链接文本定位
about_link = driver.find_element(By.LINK_TEXT, '关于我们')

# 通过XPath定位（推荐）
login_btn = driver.find_element(By.XPATH, '//button[@type="submit"]')

# 通过CSS选择器定位
price_span = driver.find_element(By.CSS_SELECTOR, 'span.price')

# 通过部分链接文本定位
partial_link = driver.find_element(By.PARTIAL_LINK_TEXT, '下载')

3. XPath定位实战技巧

假设页面结构如下：

<div class="product-list">
  <div class="item">
    <h3>商品1</h3>
    <p class="price">¥99.99</p>
    <button data-id="123">加入购物车</button>
  </div>
  <!-- 更多商品... -->
</div>

定位策略：

# 定位商品标题
titles = driver.find_elements(By.XPATH, '//div[@class="item"]/h3')

# 定位价格元素
prices = driver.find_elements(By.XPATH, '//p[@class="price"]')

# 定位特定商品的按钮
add_button = driver.find_element(
    By.XPATH, '//button[@data-id="123"]'
)

# 组合条件定位
discount_items = driver.find_elements(
    By.XPATH, '//div[contains(@class, "item") and .//span[text()="秒杀"]]'
)

四、模拟用户交互

1. 表单操作全流程

# 访问登录页
driver.get('https://example.com/login')

# 定位元素
username = driver.find_element(By.ID, 'username')
password = driver.find_element(By.NAME, 'password')
submit = driver.find_element(By.XPATH, '//form//button')

# 输入信息
username.send_keys('testuser')
password.send_keys('securepassword123')

# 提交表单
submit.click()

# 处理验证（示例：短信验证码）
sms_code = driver.find_element(By.ID, 'smsCode')
sms_code.send_keys('123456')
driver.find_element(By.CLASS_NAME, 'verify-btn').click()

2. 复杂交互示例

from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys

# 鼠标悬停显示菜单
menu = driver.find_element(By.CLASS_NAME, 'dropdown')
ActionChains(driver).move_to_element(menu).perform()

# 拖放操作
source = driver.find_element(By.ID, 'draggable')
target = driver.find_element(By.ID, 'droppable')
ActionChains(driver).drag_and_drop(source, target).perform()

# 键盘操作
search = driver.find_element(By.NAME, 'q')
search.send_keys('Python')
search.send_keys(Keys.ARROW_DOWN)  # 模拟按下方向键
search.send_keys(Keys.RETURN)     # 模拟回车

# 文件上传
upload_input = driver.find_element(By.XPATH, '//input[@type="file"]')
upload_input.send_keys('/path/to/file.jpg')

3. 分页处理技巧

while True:
    # 提取当前页数据
    items = driver.find_elements(By.CLASS_NAME, 'item')
    for item in items:
        # 数据解析逻辑...
        pass
    
    # 查找下一页按钮
    try:
        next_btn = driver.find_element(
            By.XPATH, '//a[contains(text(), "下一页")]'
        )
        if 'disabled' in next_btn.get_attribute('class'):
            break
        next_btn.click()
        
        # 等待加载完成
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.CLASS_NAME, 'item'))
        )
    except NoSuchElementException:
        break

五、等待机制详解

1. 三种等待策略对比

等待类型	实现方式	优点	缺点
强制等待	time.sleep(n)	简单直接	效率低下，难以适配
隐式等待	implicitly_wait(n)	全局生效	不灵活，影响性能
显式等待	WebDriverWait+EC	精准高效	代码稍复杂

2. 显式等待最佳实践

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待元素可见
element = WebDriverWait(driver, 15).until(
    EC.visibility_of_element_located((By.ID, "target"))
)

# 等待元素可点击
button = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.CLASS_NAME, "submit-btn"))
)

# 自定义等待条件
def page_loaded(driver):
    return driver.execute_script("return document.readyState") == "complete"

WebDriverWait(driver, 30).until(page_loaded)

3. 常见等待条件

EC.title_is("目标标题")  # 标题等于
EC.title_contains("关键词")  # 标题包含
EC.presence_of_element_located((By.ID, "元素"))  # 元素存在
EC.visibility_of(element)  # 元素可见
EC.text_to_be_present_in_element((By.XPATH, "//div"), "期望文本")  # 包含文本
EC.frame_to_be_available_and_switch_to_it((By.ID, "iframe"))  # iframe可用
EC.alert_is_present()  # 弹窗出现

六、高级应用场景

1. 处理iframe嵌套

# 定位iframe元素
iframe = driver.find_element(By.XPATH, '//iframe[@name="login_frame"]')

# 切换到iframe
driver.switch_to.frame(iframe)

# 操作iframe内部元素
driver.find_element(By.NAME, 'username').send_keys('testuser')

# 切回主文档
driver.switch_to.default_content()

2. 处理浏览器弹窗

# 获取alert对象
alert = driver.switch_to.alert

# 处理确认弹窗
if alert.text == "确认删除吗？":
    alert.accept()  # 确认
else:
    alert.dismiss()  # 取消

# 处理输入弹窗
alert.send_keys("输入内容")
alert.accept()

3. 执行JavaScript

# 滚动到页面底部
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

# 修改元素属性
driver.execute_script(
    "arguments[0].setAttribute('style', 'color: red;');",
    warning_element
)

# 获取页面性能数据
load_time = driver.execute_script(
    "return performance.timing.loadEventEnd - performance.timing.navigationStart;"
)

七、实战案例：淘宝商品爬虫

import csv
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

def taobao_spider(keyword, max_pages=3):
    driver = webdriver.Chrome()
    driver.get("https://www.taobao.com")
    
    # 搜索商品
    search_input = driver.find_element(By.ID, 'q')
    search_input.send_keys(keyword)
    driver.find_element(By.CLASS_NAME, 'search-button').click()
    
    # 创建CSV文件
    with open('products.csv', 'w', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(['标题', '价格', '销量', '店铺'])
        
        # 翻页采集
        for _ in range(max_pages):
            # 等待结果加载
            WebDriverWait(driver, 15).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, '.item.J_MouserOnverReq'))
            )
            
            # 提取商品信息
            items = driver.find_elements(By.CSS_SELECTOR, '.item.J_MouserOnverReq')
            for item in items:
                try:
                    title = item.find_element(By.CSS_SELECTOR, '.title').text.strip()
                    price = item.find_element(By.CSS_SELECTOR, '.price').text.strip()
                    sales = item.find_element(By.CSS_SELECTOR, '.deal-cnt').text.strip()
                    shop = item.find_element(By.CSS_SELECTOR, '.shop').text.strip()
                    writer.writerow([title, price, sales, shop])
                except Exception as e:
                    print(f"提取失败：{str(e)}")
            
            # 点击下一页
            try:
                next_btn = driver.find_element(By.CSS_SELECTOR, '.next.next-disabled')
                if next_btn:
                    break
            except:
                driver.find_element(By.CSS_SELECTOR, '.next:not(.next-disabled)').click()
                
    driver.quit()

# 执行爬虫
taobao_spider("无线鼠标", max_pages=2)

代码解析：

使用CSS选择器定位元素
显式等待确保加载完成
自动处理分页逻辑
异常捕获保证流程稳定
数据存储为CSV文件

八、反检测策略

虽然本文不涉及逆向工程，但使用Selenium时仍需注意：

修改浏览器特征

options.add_argument("--disable-blink-features=AutomationControlled")
options.add_experimental_option("excludeSwitches", ["enable-automation"])

随机化操作间隔

import random
import time

def human_like_sleep(min=1, max=3):
    time.sleep(random.uniform(min, max))

使用代理IP

options.add_argument('--proxy-server=http://user:pass@ip:port')

禁用WebDriver属性

driver.execute_cdp_cmd(
    "Page.addScriptToEvaluateOnNewDocument", {
        "source": """
        Object.defineProperty(navigator, 'webdriver', {
            get: () => undefined
        })
        """
    }
)