scrapy 代理
说明:
本文参照了官网文档,以及stackoverflow的几个问题
概要:
在scrapy中使用代理,有两种使用方式
- 使用中间件
- 直接设置Request类的meta参数
方式一:使用中间件
要进行下面两步操作
- 在文件 settings.py 中激活代理中间件
ProxyMiddleware
- 在文件 middlewares.py 中实现类
ProxyMiddleware
1.文件 settings.py 中:
# settings.py
DOWNLOADER_MIDDLEWARES = {'project_name.middlewares.ProxyMiddleware': 100,
'scrapy.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110, }
说明:
数字100, 110表示中间件先被调用的次序。数字越小,越先被调用。
官网文档:The integer values you assign to classes in this setting determine the order in which they run: items go through from lower valued to higher valued classes. It’s customary to define these numbers in the 0-1000 range.
2.文件 middlewares.py 看起来像这样:
代理不断变换
- 这里利用网上API 直接get过来。(需要一个APIKEY,免费注册一个账号就有了。这个APIKEY是我自己的,不保证一直有效!)
- 也可以从网上现抓。
- 还可以从本地文件读取
-
# middlewares.py import requests class ProxyMiddleware(object): def process_request(self, request, spider): APIKEY = 'f95f08afc952c034cc2ff9c5548d51be' url = 'https://www.proxicity.io/api/v1/{}/proxy'.format(APIKEY) # 在线API接口 r = requests.get(url) request.meta['proxy'] = r.json()['curl'] # 协议://IP地址:端口(如 http://5.39.85.100:30059) return request
-
方式二:直接设置Request类的meta参数
-
import random # 事先准备的代理池 proxy_pool = ['http://proxy_ip1:port', 'http://proxy_ip2:port', ..., 'http://proxy_ipn:port'] class MySpider(BaseSpider): name = "my_spider" allowed_domains = ["example.com"] start_urls = [ 'http://www.example.com/articals/', ] def start_requests(self): for url in self.start_urls: proxy_addr = random.choice(proxy_pool) # 随机选一个 yield scrapy.Request(url, callback=self.parse, meta={'proxy': proxy_addr}) # 通过meta参数添加代理 def parse(self, response): # doing parse