本人常用中间件
自定义代理中间件ProxyMiddleware
实现功能:
-
对每一个请求配置一个代理IP
-
对响应进行处理,如果状态码不为200,重新请求
-
对异常进行处理,出现超时,503或IP被封时进行代理重试
class xxxProxyMiddleware(object):
def process_request(self, request, spider):
ip = random.choice(IP_Pool)
request.meta['proxy'] = ip
print(request.meta['proxy'])
def process_response(self, request, response, spider):
if response.status == 200:
return response
else:
print("状态码错误,重新请求")
ip = random.choice(IP_Pool)
print("this is response ip:" + ip)
request.meta['proxy'] = ip
return request
def process_exception(self, request, exception, spider):
# 出现异常时(超时)使用代理
print("\n出现异常,正在使用代理重试....\n")
ip = random.choice(IP_Pool)
request.meta['proxy'] = ip
return request
自定义随机UA中间件
如果对User-Agent没有特定要求,可以使用fake_useragent库。
class RandomUAMiddleware(object):
def process_request(self, request, spider):
ua = random.choice(agents)
request.headers['User-Agent'] = ua
from fake_useragent import UserAgent
ua = UserAgent().random
重试中间件
scrapy自带scrapy.downloadermiddlewares.retry.RetryMiddleware中间件,如果想设置重试次数,可以在settings.py中进行配置
RETRY_ENABLED: True #是否开启retry
RETRY_TIMES: 5 # 重试次数
RETRY_HTTP_CODECS: 遇到什么http code时需要重试,默认是500,502,503,504,408,其他的,网络链接超时等问题也会自动retry。