Scrapy自定义proxy代理及https证书

1.代理

方式一:使用默认
os.environ
{
http_proxy:http://root:woshiniba@192.168.11.11:9999/
https_proxy:http://192.168.11.11:9999/
}
方式二:使用自定义下载中间件

    def to_bytes(text, encoding=None, errors='strict'):
        if isinstance(text, bytes):
            return text
        if not isinstance(text, six.string_types):
            raise TypeError('to_bytes must receive a unicode, str or bytes '
                            'object, got %s' % type(text).__name__)
        if encoding is None:
            encoding = 'utf-8'
        return text.encode(encoding, errors)
        
    class ProxyMiddleware(object):
        def process_request(self, request, spider):
            PROXIES = [
                {'ip_port': '111.11.228.75:80', 'user_pass': ''},
                {'ip_port': '120.198.243.22:80', 'user_pass': ''},
                {'ip_port': '111.8.60.9:8123', 'user_pass': ''},
                {'ip_port': '101.71.27.120:80', 'user_pass': ''},
                {'ip_port': '122.96.59.104:80', 'user_pass': ''},
                {'ip_port': '122.224.249.122:8088', 'user_pass': ''},
            ]
            proxy = random.choice(PROXIES)
            if proxy['user_pass'] is not None:
                request.meta['proxy'] = to_bytes("http://%s" % proxy['ip_port'])
                encoded_user_pass = base64.encodestring(to_bytes(proxy['user_pass']))
                request.headers['Proxy-Authorization'] = to_bytes('Basic ' + encoded_user_pass)
                print "**************ProxyMiddleware have pass************" + proxy['ip_port']
            else:
                print "**************ProxyMiddleware no pass************" + proxy['ip_port']
                request.meta['proxy'] = to_bytes("http://%s" % proxy['ip_port'])

# settings中设置    
DOWNLOADER_MIDDLEWARES = {
       'step8_king.middlewares.ProxyMiddleware': 500,
    }
2.https自定义证书

Https访问时有两种情况:

  1. 要爬取网站使用的可信任证书(默认支持)

    DOWNLOADER_HTTPCLIENTFACTORY = “scrapy.core.downloader.webclient.ScrapyHTTPClientFactory”
    DOWNLOADER_CLIENTCONTEXTFACTORY = “scrapy.core.downloader.contextfactory.ScrapyClientContextFactory”

  2. 要爬取网站使用的自定义证书

    DOWNLOADER_HTTPCLIENTFACTORY = “scrapy.core.downloader.webclient.ScrapyHTTPClientFactory”
    DOWNLOADER_CLIENTCONTEXTFACTORY = “step8_king.https.MySSLFactory”

# https.py
from scrapy.core.downloader.contextfactory import ScrapyClientContextFactory
from twisted.internet.ssl import (optionsForClientTLS, CertificateOptions, PrivateCertificate)

class MySSLFactory(ScrapyClientContextFactory):
    def getCertificateOptions(self):
        from OpenSSL import crypto
        v1 = crypto.load_privatekey(crypto.FILETYPE_PEM, open('/Users/wupeiqi/client.key.unsecure', mode='r').read())
        v2 = crypto.load_certificate(crypto.FILETYPE_PEM, open('/Users/wupeiqi/client.pem', mode='r').read())
        return CertificateOptions(
            privateKey=v1,  # pKey对象
            certificate=v2,  # X509对象
            verify=False,
            method=getattr(self, 'method', getattr(self, '_ssl_method', None))
        )
其他:
相关类
    scrapy.core.downloader.handlers.http.HttpDownloadHandler
    scrapy.core.downloader.webclient.ScrapyHTTPClientFactory
    scrapy.core.downloader.contextfactory.ScrapyClientContextFactory
相关配置
    DOWNLOADER_HTTPCLIENTFACTORY
    DOWNLOADER_CLIENTCONTEXTFACTORY
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Scrapy中配置代理Proxy)可以通过修改middlewares和settings文件来实现。下面是一个简单的配置步骤: 1. 创建一个自定义的Spider Middleware类来处理代理。在项目的middlewares.py文件中,可以创建一个新的类来处理请求的代理。例如,创建一个名为ProxyMiddleware的类。 ```python from scrapy import signals class ProxyMiddleware(object): def __init__(self, proxy_url): self.proxy_url = proxy_url @classmethod def from_crawler(cls, crawler): settings = crawler.settings proxy_url = settings.get('PROXY_URL') return cls(proxy_url) def process_request(self, request, spider): request.meta['proxy'] = self.proxy_url ``` 2. 修改项目的settings.py文件,启用自定义的中间件并配置代理URL。将以下内容添加到settings.py文件中: ```python DOWNLOADER_MIDDLEWARES = { 'your_project_name.middlewares.ProxyMiddleware': 543, # 设置自定义中间件的优先级 } PROXY_URL = 'http://your_proxy_url' # 替换为你的代理URL ``` 3. 使用代理发送请求。在编写爬虫时,Scrapy会自动应用中间件,并在请求时使用所配置的代理URL。示例如下: ```python import scrapy class MySpider(scrapy.Spider): name = 'my_spider' start_urls = ['http://example.com'] def parse(self, response): # 爬虫逻辑处理 pass ``` 请注意,以上示例中的代码片段仅为演示目的,实际使用时需要根据自己的项目结构和需求进行适当的修改。 希望这些信息对你有帮助!如果有任何其他问题,请随时提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值