setting中定义好"USER_AGENTS_LIST",同时开启下载中间件
import random
class RandomUserAgentMiddleware:
#当每个request经过下载中间件时,该方法被调用
def process_request(self,request,spider):
ua = random.choice(spider.settings.get("USER_AGENTS_LIST"))
request.headers["User-Agent"] = ua
class CheckUserAgent:
#当下载器完成http请求时,传递响应给引擎时调用
def process_response(self,request,response,spider):
print(request.headers["User-Agent"])
return response
class ProxyMiddleware(object):
#在request的meta信息中添加proxy字段
def process_request(self,request,spider):
request.meta["proxy"] = "http://124.115.126.76:808"
1. process_request(self,request,spider)方法:
这个方法是下载器在发送请求之前会执行的。一般可以在这个里面设置随机代理ip等。
1. 参数:
* request:发送请求的request对象。
* spider:发送请求的spider对象。
2. 返回值:
* 返回None:如果返回None,Scrapy将继续处理该request,执行其他中间件中的相应方法,直到合适的下载器处理函数被调用。
* 返回Response对象:Scrapy将不会调用任何其他的process_request方法,将直接返回这个response对象。已经激活的中间件的process_response()方法则会在每个response返回时被调用。
* 返回Request对象:不再使用之前的request对象去下载数据,而是根据现在返回的request对象返回数据。
* 如果这个方法中抛出了异常,则会调用process_exception方法。
2. process_response(self,request,response,spider)方法:
这个是下载器下载的数据到引擎中间会执行的方法。
1. 参数:
* request:request对象。
* response:被处理的response对象。
* spider:spider对象。
2. 返回值:
* 返回Response对象:会将这个新的response对象传给其他中间件,最终传给爬虫。
* 返回Request对象:下载器链被切断,返回的request会重新被下载器调度下载。
* 如果抛出一个异常,那么调用request的errback方法,如果没有指定这个方法,那么会抛出一个异常。