scrapy 代理中间件,自动获取代理

ScrapyProxy

scrapy代理中间件,可以自动获取代理,自动去重,自动检查可用代理个数,没有可用代理时会自动重新获取

如何使用

  1. 将项目clone到本地
  2. 在自己的scrapy爬虫下新建proxy文件夹,将所有文件复制到该文件夹下
  3. 注意检查导入包的问题,如果路径不对,请修改导入路径
  4. 将middlewares中的代码复制到你自己scrapy项目的middlewares中,同时也要注意路径问题
  5. 修改setting如下:
    DOWNLOADER_MIDDLEWARES = {
        #注意将SinaSpider修改为你自己的项目名称
       'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
       'SinaSpider.middlewares.UserAgentMiddleware': 100,
       'SinaSpider.middlewares.ProxyMiddleware':101,
       'SinaSpider.middlewares.ProcessException':102,
       'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': None,
       'scrapy.contrib.downloadermiddleware.retry.RetryMiddleware': None,
    }

github代码

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值