【道高一尺魔高一丈】7种反爬虫策略及规避手段

最新推荐文章于 2025-03-18 06:35:39 发布

AGI大模型资料分享员

最新推荐文章于 2025-03-18 06:35:39 发布

阅读量3.9k

点赞数 3

文章标签：爬虫 python 职场和发展开发语言大数据学习数据分析

本文链接：https://blog.csdn.net/m0_48891301/article/details/133761926

版权

大家好，我是静幽水，一名大厂全栈工程师，今天给大家分享一下几个常用的反爬虫策略，以及一些应对手段，正所谓：道高一尺，魔高一丈。一山更比一山高。

常见的反爬虫策略包括：请求头验证，IP限制，验证码验证，User-Agent检测，行为分析，JS加密，动态页面加载等。下面我将会逐一给大家介绍，觉得有用可以关注我。

一、请求头验证

请求头验证的重要性

请求头验证是一种常见的反爬虫策略，网站会检查请求头中的各种信息来判断请求是否来自合法的浏览器。请求头中的关键信息包括User-Agent、Referer、Cookie等，网站可以根据这些信息来判断请求的合法性。例如，User-Agent可以告诉网站请求的是什么浏览器和操作系统，而Referer可以告诉网站用户是从哪个页面跳转而来。如果请求头中的这些信息与合法浏览器的特征不符，网站就有理由怀疑该请求是来自爬虫程序，进而采取相应的限制措施。

规避请求头验证的技巧

爬虫程序可以通过设置合理的请求头信息来规避请求头验证。例如，可以设置合适的User-Agent来伪装成浏览器，使得请求头中的User-Agent信息与合法浏览器一致。还可以设置合适的Referer来伪装请求的来源，使得请求头中的Referer与合法跳转一致。此外，还可以通过携带合法的Cookie信息，从而让请求头中的Cookie与合法用户一致。这些技巧可以帮助爬虫程序通过请求头验证，成功获取网站的数据。

示例代码

下面是一个使用Python的请求头验证的示例代码：

import requests  
  
headers = {  
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',  
    'Referer': 'https://www.example.com',  
    'Cookie': 'your_cookie_here'  
}  
  
url = 'https://www.example.com/data'  
response = requests.get(url, headers=headers)  
print(response.text)

在这个示例中，通过设置合理的User-Agent、Referer和Cookie，可以让请求看起来像是来自合法的浏览器，从而通过请求头验证获取网站的数据。

总结：请求头验证是一种常见的反爬虫策略，网站会根据请求头中的信息来判断请求的合法性。爬虫程序可以通过设置合理的请求头信息来规避请求头验证，从而成功获取网站的数据。

二、IP限制

IP限制的作用

IP限制是一种常见的反爬虫策略，网站会根据请求的IP地址来判断是否是恶意访问。网站可以通过黑名单、白名单、频率限制等方式对IP进行限制。例如，可以将恶意IP加入黑名单，拒绝其访问网站；也可以只允许白名单中的IP访问，其他IP则无法访问网站。

规避IP限制的技巧

爬虫程序可以通过使用代理IP或者进行IP切换来规避IP限制。代理IP是指通过第三方服务获取的IP地址，可以让请求看起来像是来自不同的IP。通过使用代理IP，爬虫程序可以绕过网站对特定IP的限制。另外，也可以通过进行IP切换的方式，使得爬虫程序在访问网站时每次使用不同的IP地址，从而规避IP限制。

示例代码

下面是一个使用Python的代理IP的示例代码：

import requests  
  
url = 'https://www.example.com/data'  
proxy = {  
    'http': 'http://your_proxy_ip:your_proxy_port',  
    'https': 'https://your_proxy_ip:your_proxy_port',  
}  
  
response = requests.get(url, proxies=proxy)  
print(response.text)

在这个示例中，通过设置合理的代理IP，可以让爬虫程序使用不同的IP地址访问网站，从而规避IP限制。

总结：IP限制是一种常见的反爬虫策略，通过对请求的IP地址进行限制，网站可以判断是否是恶意访问。爬虫程序可以通过使用代理IP或者进行IP切换来规避IP限制，从而成功获取网站的数据。

三、验证码验证

验证码验证的作用

验证码验证是一种常见的反爬虫策略，网站会通过显示验证码来判断请求是否来自人类而非爬虫程序。验证码可以有效防止自动化程序的恶意请求，从而保护网站的数据和资源。

破解验证码的技术手段

破解验证码需要一定的技术和算法，常见的破解方式包括图像识别和机器学习。图像识别技术可以通过分析验证码的图像特征，识别出验证码中的字符或图形。机器学习技术可以通过训练模型，使其能够自动识别不同类型的验证码。

验证码破解的代码实现

下面是一个使用Python的验证码破解的示例代码，使用了图像识别的方法来识别验证码中的字符：

import pytesseract  
from PIL import Image  
  
def crack_captcha(image_path):  
    image = Image.open(image_path)  
    code = pytesseract.image_to_string(image)  
    return code  
  
captcha_image_path = 'captcha.png'  
captcha_code = crack_captcha(captcha_image_path)  
print(captcha_code)

在这个示例中，通过使用pytesseract库和PIL库，将验证码图片转换为文本，从而实现验证码的自动识别和破解。

总结：验证码验证是一种常见的反爬虫策略，通过显示验证码来判断请求是否来自人类。破解验证码需要一定的技术和算法，常见的破解方式包括图像识别和机器学习。爬虫程序可以通过识别和破解验证码，绕过验证码验证，成功获取网站的数据。

四、User-Agent检测

User-Agent检测的作用

User-Agent检测是一种常见的反爬虫策略，网站会检测请求中的User-Agent信息来判断是否是爬虫程序。User-Agent是HTTP请求头中的一个字段，用来标识发起请求的客户端信息，包括浏览器类型、操作系统等。通过检测请求中的User-Agent信息，网站可以判断请求是否来自合法的浏览器。

规避User-Agent检测的技巧

爬虫程序可以通过设置合适的User-Agent信息来伪装成浏览器或移动设备，从而规避User-Agent检测。可以从真实浏览器中获取合法的User-Agent信息，然后将其设置为爬虫程序的User-Agent。还可以使用第三方库如fake-useragent来自动生成合法的User-Agent信息，避免被网站检测到。

示例代码

下面是一个使用Python的设置User-Agent的示例代码：

import requests  
from fake_useragent import UserAgent  
  
ua = UserAgent()  
headers = {'User-Agent': ua.random}  
  
url = 'https://www.example.com/data'  
response = requests.get(url, headers=headers)  
print(response.text)

在这个示例中，通过使用fake-useragent库生成一个随机的合法User-Agent，然后将其设置为请求的User-Agent，实现了User-Agent检测的规避。

总结：User-Agent检测是一种常见的反爬虫策略，网站会检测请求中的User-Agent信息来判断是否是爬虫程序。爬虫程序可以通过设置合适的User-Agent信息来伪装成浏览器或移动设备，从而规避User-Agent检测，成功获取网站的数据。

五、行为分析

行为分析的重要性

行为分析是一种较高级的反爬虫策略，网站会通过分析用户行为来判断是否是爬虫程序。行为分析可以包括用户的鼠标轨迹、页面停留时间、点击模式等信息的分析。通过分析用户的真实行为，网站可以识别并拒绝爬虫程序的请求，从而保护网站的数据和资源。

规避行为分析的技巧

爬虫程序可以通过模拟人类的行为特征来规避行为分析。例如，可以设置爬虫程序在请求之间的延迟时间以模拟人类的点击间隔。另外，可以给请求添加随机的鼠标移动和点击操作，模拟人类的操作行为。还可以避免频繁请求同一页面，以减少被网站识别的概率。

示例代码

下面是一个使用Python的模拟人类行为特征的示例代码：

import requests  
import time  
import random  
  
url = 'https://www.example.com/data'  
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}  
  
def simulate_human_behavior():  
    delay = random.uniform(0.5, 1.5)  
    time.sleep(delay)  
    response = requests.get(url, headers=headers)  
    return response.text  
  
data = simulate_human_behavior()  
print(data)

在这个示例中，通过随机的延迟时间和模拟人类的请求行为，使得爬虫程序的请求看起来更像是由人类发起的，从而规避行为分析。

总结：行为分析是一种较高级的反爬虫策略，通过分析用户行为来判断是否是爬虫程序。爬虫程序可以通过模拟人类的行为特征来规避行为分析，成功获取网站的数据。

六、JS加密技术

JS加密技术的作用

JS加密/反爬虫技术是一种常用的反爬虫策略，通过使用JavaScript对关键数据进行加密或混淆来增加爬虫程序的难度。JS加密/反爬虫技术可以应用于对URL、常量、参数等关键信息进行加密或混淆，使其在传输和解析过程中变得不易被理解和获取。

规避JS加密技术的技巧

爬虫程序需要先解密或还原被加密或混淆的数据才能正常运行。为了规避JS加密/反爬虫技术，可以使用第三方的JS引擎执行JavaScript代码或者通过分析网页源码中的JavaScript代码进行解密。另外，还可以使用浏览器的开发者工具模拟网页的加载和执行过程，并获取解密后的数据。

示例代码

以下是一个示例代码，使用第三方库PyExecJS执行JavaScript代码，解密被加密的数据：

import requests  
import execjs  
  
url = 'https://www.example.com/data'  
  
with open('decrypt.js', 'r') as file:  
    decrypt_code = file.read()  
  
js_code = """  
var data = 'encrypted_data';  
var decrypted_data = decrypt(data);  
decrypted_data;  
"""  
  
def decrypt_data(encrypted_data):  
    ctx = execjs.compile(decrypt_code)  
    decrypted_data = ctx.call('decrypt', encrypted_data)  
    return decrypted_data  
  
response = requests.get(url)  
encrypted_data = response.text  
decrypted_data = decrypt_data(encrypted_data)  
print(decrypted_data)

在这个示例中，通过使用execjs库执行JavaScript代码实现数据的解密操作，并获取解密后的数据。

总结：JS加密/反爬虫技术是一种常用的反爬虫策略，通过加密或混淆关键数据来增加爬虫程序解析的难度。爬虫程序可以通过使用第三方库执行JavaScript代码或分析网页源码中的JavaScript代码进行解密，规避JS加密/反爬虫技术，成功获取网站的数据。

七、动态页面加载

动态页面加载的作用

动态页面加载是一种反爬虫策略，通过将页面内容使用JavaScript或Ajax等技术动态加载，从而减少爬虫程序的获取数据的便利性。动态页面加载可以防止简单的爬虫程序直接从静态HTML页面中提取数据，增加了爬虫程序对页面内容的解析难度。

规避动态页面加载的技巧

爬虫程序需要模拟JavaScript或Ajax的请求并解析返回的数据才能获取到完整的页面内容。为了规避动态页面加载，可以使用第三方库模拟浏览器行为，执行JavaScript代码并获取到完整的页面内容。另外，还可以分析网页源码中的动态加载逻辑，直接获取动态加载的数据。

示例代码

以下是一个使用Selenium库模拟浏览器行为的示例代码，获取动态加载的数据：

from selenium import webdriver  
from selenium.webdriver.chrome.options import Options  
  
url = 'https://www.example.com/data'  
  
chrome_options = Options()  
chrome_options.add_argument('--headless')  # 无头模式，不显示浏览器窗口  
  
driver = webdriver.Chrome(options=chrome_options)  
driver.get(url)  
  
# 等待页面动态加载完成  
time.sleep(3)  
  
data = driver.page_source  
driver.quit()  
  
print(data)