网络爬虫系列（4）：反爬虫机制与反制策略

最新推荐文章于 2025-04-18 09:03:46 发布

DoYangTan

最新推荐文章于 2025-04-18 09:03:46 发布

阅读量1.6k

点赞数 14

分类专栏：网路爬虫系列文章标签：爬虫 python

本文链接：https://blog.csdn.net/Azperk/article/details/145868422

版权

网路爬虫系列专栏收录该内容

5 篇文章

订阅专栏

网络爬虫系列（4）：反爬虫机制与反制策略

在网络爬虫的开发过程中，我们时常会遇到网站的反爬虫机制。这些机制旨在防止未经授权的数据抓取，通常表现为限制请求频率、验证码验证、IP封禁等措施。在本篇文章中，我们将深入探讨常见的反爬虫策略，并介绍如何应对这些策略。

1. 常见的反爬虫机制

1.1 请求频率限制

许多网站会通过限制请求频率来防止爬虫短时间内对服务器发起大量请求。这种策略通常基于IP地址或用户会话进行限制。

应对策略：

添加随机延时：通过在请求之间加入随机延时，模拟正常用户的浏览行为。
使用代理池：通过代理IP分散请求，避免单一IP频繁访问同一网站。

1.2 User-Agent验证

许多网站会通过检查请求头中的User-Agent字段，来判断请求是否来自浏览器。如果User-Agent字段为空或不符合常见浏览器的值，可能会被认定为爬虫。

应对策略：

伪装User-Agent：通过设置合适的User-Agent字符串，模拟常见浏览器的请求头。

1.3 Cookie和会话验证

一些网站通过Cookie或会话来追踪用户的活动。如果请求中缺少有效的Cookie，可能会导致请求被拒绝。

应对策略：

保持会话：使用requests.Session()保持会话，在每次请求时使用相同的Cookie。
自动化登录：对于需要登录的页面，模拟登录过程并保存Cookie。

1.4 CAPTCHA（验证码）

CAPTCHA（全自动区分计算机和人类的图灵测试）是一种常见的反爬虫技术，旨在阻止自动化程序访问网站。验证码通常要求用户输入图片中的字符或点击特定区域。

应对策略：

使用OCR识别验证码：可以使用OCR（光学字符识别）技术尝试破解验证码。
通过人工识别：如果是少量验证码，可以选择人工识别。
使用第三方验证码破解服务：例如2Captcha、AntiCaptcha等。

1.5 IP封禁

当网站检测到异常流量时，它们可能会对某个IP进行封禁，导致该IP无法继续访问网站。

应对策略：

使用代理IP池：通过代理池切换IP，避免单一IP被封禁。
请求头伪装：结合使用代理IP和伪装的请求头，增加反爬虫检测的难度。

2. 代码示例：如何应对反爬虫机制

2.1 添加随机延时

我们可以使用time.sleep()来模拟人类用户的浏览行为，避免发送请求过于频繁：

import requests
import time
import random

# 创建一个会话对象
session = requests.Session()

# 设置目标URL
url = "https://example.com/products"

# 模拟多个请求，添加随机延时
for page in range(1, 6):
    response = session.get(f"{url}?page={page}")
    if response.status_code == 200:
        print(f"成功抓取第{page}页")
    else:
        print(f"第{page}页抓取失败，状态码：{response.status_code}")
    
    # 随机延时，避免过于频繁的请求
    time.sleep(random.uniform(1, 3))

2.2 伪装User-Agent

通过设置User-Agent，模拟常见浏览器的请求头，从而避免被识别为爬虫：

import requests

# 伪装User-Agent
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# 发送请求时加入headers
response = requests.get("https://example.com", headers=headers)

if response.status_code == 200:
    print("成功抓取网页")
else:
    print(f"抓取失败，状态码：{response.status_code}")

2.3 使用Session保持会话

在爬取需要登录的网页时，可以使用requests.Session()来保持会话，自动管理Cookie：

import requests

# 创建会话对象
session = requests.Session()

# 登录请求
login_url = "https://example.com/login"
login_data = {"username": "your_username", "password": "your_password"}
session.post(login_url, data=login_data)

# 发送后续请求，自动带上登录的Cookie
response = session.get("https://example.com/protected_page")

if response.status_code == 200:
    print("成功抓取保护页面")
else:
    print(f"抓取失败，状态码：{response.status_code}")

2.4 使用代理IP池

我们可以通过代理池来解决IP封禁的问题。通过代理，爬虫可以轮换多个IP，避免频繁请求同一IP被封禁：

import requests
from itertools import cycle

# 代理列表
proxies = [
    "http://111.111.111.111:8080",
    "http://222.222.222.222:8080",
    "http://333.333.333.333:8080"
]

# 创建代理池
proxy_pool = cycle(proxies)

# 发送请求时使用代理
url = "https://example.com"
for proxy in proxy_pool:
    try:
        response = requests.get(url, proxies={"http": proxy, "https": proxy})
        if response.status_code == 200:
            print(f"成功抓取，使用代理：{proxy}")
            break
    except requests.exceptions.RequestException:
        print(f"代理 {proxy} 请求失败，切换下一个代理")