Scrapy框架中的反爬机制

CodeJourney.

于 2024-11-20 07:06:53 发布

阅读量902

点赞数 12

文章标签：爬虫

本文链接：https://blog.csdn.net/qq_57128262/article/details/143900265

版权

在Scrapy框架中，面对网站的反爬机制，可以采用以下多种方法来进行处理：

使用代理

- 代理的原理及作用：通过代理服务器来发送请求，这样目标网站看到的请求源IP就变成了代理服务器的IP，而非你真实的IP地址，有助于绕过基于IP的访问限制等反爬手段。

- 在Scrapy中配置代理的示例：

- 可以在 settings.py 文件中进行设置，比如使用付费代理服务（以下以 http://user:password@proxy_ip:proxy_port 格式为例，实际中替换为真实的代理账号、密码、IP和端口）：

DOWNLOADER_MIDDLEWARES = {

'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,

}

PROXY_LIST = [

"http://user:password@proxy_ip:proxy_port"

]

- 或者如果使用免费的公开代理（不过其稳定性和速度通常较差），可编写一个中间件动态从代理列表里获取代理并设置，示例中间件代码如下：

import random

from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware

class RandomProxyMiddleware(HttpProxyMiddleware):

def __init__(self, proxy_list):

self.proxy_list = proxy_list

@classmethod

def from_crawler(cls, crawler):

return cls(

proxy_list=crawler.settings.get('PROXY_LIST')

)

def process_request(self, request, spider):

proxy = random.choice(self.proxy_list)

request.meta['proxy'] = proxy

然后在 settings.py 中添加：

PROXY_LIST = [

"http://free_proxy_ip_1:free_proxy_port_1",

"http://free_proxy_ip_2:free_proxy_port_2",

# 可添加多个免费代理IP地址

]

DOWNLOADER_MIDDLEWARES = {

'your_project_name.middlewares.RandomProxyMiddleware': 100,

'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,

}

设置合理的请求头（Headers）

- 请求头的重要性：网站可以通过分析请求头中的信息（如 User-Agent 字段，代表客户端类型等）来判断请求是否来自正常浏览器访问还是爬虫程序。模拟真实浏览器的请求头，能提高爬虫的伪装性，降低被识别为爬虫的概率。

- 在Scrapy中的设置方法：

- 在 settings.py 文件中添加，例如模拟常见浏览器的 User-Agent ：

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/520.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'

- 也可以编写中间件动态随机设置不同的 User-Agent ，首先准备一个包含多个不同 User-Agent 字符串的列表（可以从网上搜集一些常见的），示例中间件代码如下：

import random

class RandomUserAgentMiddleware(object):

def __init__(self, user_agents):

self.user_agents = user_agents

@classmethod

def from_crawler(cls, crawler):

return cls(

user_agents=crawler.settings.get('USER_AGENT_LIST')

)

def process_request(self, request, spider):

request.headers['User-Agent'] = random.choice(self.user_agents)

然后在 settings.py 中配置：

USER_AGENT_LIST = [

'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36',

'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Safari/537.36',

# 更多不同的User-Agent字符串

]

DOWNLOADER_MIDDLEWARES = {

'your_project_name.middlewares.RandomUserAgentMiddleware': 100,

}

控制请求频率

- 避免频繁请求的原因：如果爬虫短时间内对目标网站发起大量请求，很容易触发网站的反爬机制，例如被限制IP访问等。合理控制请求频率，使其接近正常用户的访问速度，有助于降低被发现的风险。

- 在Scrapy中的实现方式：

- 使用 DOWNLOAD_DELAY 设置下载延迟，即每次请求之间的间隔时间（单位为秒），比如设置为2秒，表示每2秒发送一次请求，在 settings.py 文件中添加：

DOWNLOAD_DELAY = 2

- 还可以结合 RANDOMIZE_DOWNLOAD_DELAY 来随机化这个延迟时间，让请求频率看起来更自然，同样在 settings.py 文件中配置：

DOWNLOAD_DELAY = 2

RANDOMIZE_DOWNLOAD_DELAY = True

处理验证码或登录限制

- 应对验证码情况：如果网站弹出验证码来验证访问者是否为人类，可采用验证码识别技术（如使用一些开源的验证码识别库，不过准确率因验证码复杂程度而异），或者使用打码平台（付费服务，由人工帮忙识别验证码）。例如使用打码平台，在Scrapy中需要编写相应的中间件，当遇到验证码页面时，将验证码图片发送给打码平台，获取识别结果后继续后续请求流程。

- 应对登录限制：若网站只有登录后才能访问更多内容，需要先模拟登录过程。可以使用Scrapy的 FormRequest 来模拟表单提交登录信息，示例代码（以常见的用户名、密码登录为例）如下：

import scrapy

class LoginSpider(scrapy.Spider):

name = "login"

start_urls = ["https://example.com/login_page"]

def parse(self, response):

return scrapy.FormRequest.from_response(

response,

formdata={'username': 'your_username', 'password': 'your_password'},

callback=self.after_login

)

def after_login(self, response):