反爬虫？不存在的！教你几招轻松绕过网站限制

最新推荐文章于 2025-02-10 15:14:37 发布

印象Python

最新推荐文章于 2025-02-10 15:14:37 发布

阅读量1.8k

点赞数 5

文章标签：爬虫

本文链接：https://blog.csdn.net/qq_36807888/article/details/141017080

版权

在互联网时代，数据是重要的资源，网络爬虫作为一种自动化采集数据的工具，扮演着至关重要的角色。然而，网站为了保护自身数据安全和用户体验，会采取各种反爬虫措施。本篇文章将详细介绍 Python 爬虫和反爬虫的技巧，并结合代码和注释进行说明。

一、爬虫技巧

1. 模拟浏览器行为

网站通常会根据请求头信息识别爬虫，例如 User-Agent。为了绕过检测，爬虫需要模拟浏览器行为，发送正常的请求头信息。

import requests

# 设置请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate, sdch',
    'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4',
}

# 发送请求
response = requests.get(url, headers=headers)

# 获取网页内容
content = response.text

# 打印网页内容
print(content)

这段代码使用 requests 库发送 HTTP 请求，并设置了 headers 参数来模拟浏览器发送的请求头信息，包括 User-Agent、Accept、Accept-Encoding、Accept-Language 等。

2. 使用代理 IP

网站可能会封锁频繁访问的 IP 地址，为了避免被封锁，可以使用代理 IP。

import requests

# 代理 IP 地址
proxies = {
    'http': 'http://user:password@ip:port',
    'https': 'https://user:password@ip:port',
}

# 发送请求
response = requests.get(url, proxies=proxies)

# 获取网页内容
content = response.text

# 打印网页内容
print(content)

这段代码使用 proxies 参数设置代理 IP 地址，可以是 HTTP 代理或 HTTPS 代理。

3. 设置访问间隔

频繁访问网站可能会被识别为爬虫，为了避免这种情况，可以设置访问间隔，模拟人类用户的行为。

import time
import requests

# 设置访问间隔
sleep_time = 2

# 循环访问网页
for i in range(10):
    # 发送请求
    response = requests.get(url)

    # 获取网页内容
    content = response.text

    # 打印网页内容
    print(content)

    # 等待一段时间
    time.sleep(sleep_time)

这段代码使用 time.sleep() 函数设置访问间隔，每次访问网页后等待 2 秒钟。

4. 解析动态网页

许多网站使用 JavaScript 动态加载内容，传统的爬虫无法直接获取这些内容。为了解决这个问题，可以使用 Selenium、Puppeteer 等工具控制浏览器渲染网页，然后获取渲染后的内容。

使用 Selenium 控制 Chrome 浏览器

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# 设置 Chrome 选项
chrome_options = Options()
chrome_options.add_argument('--headless')  # 无头模式

# 创建 Chrome 浏览器驱动
driver = webdriver.Chrome(options=chrome_options)

# 打开网页
driver.get(url)

# 获取网页内容
content = driver.page_source

# 关闭浏览器
driver.quit()

# 打印网页内容
print(content)

这段代码使用 Selenium 控制 Chrome 浏览器打开网页，并使用 page_source 属性获取渲染后的网页内容。