scrapy 设置代理ip和cookies(微博)



pipelines.py代码
from fake_useragent import UserAgent
import requests


class UserAgentMiddlewares(object):
    """
    自定义一个UserAgent的下载中间件。
    """
    def __init__(self, user_agent_type):
        self.ua = UserAgent()
        self.user_agent_type = user_agent_type

    @classmethod
    def from_crawler(cls, crawler):
        obj = cls(
            user_agent_type=crawler.settings.get('USER_AGENT_TYPE', 'random')
        )
        return obj

    def get_user_agent(self):
        # getattr():通过self.ua调用self.user_agent_type
        user_agent = getattr(self.ua, self.user_agent_type)
        return user_agent

    def get_cookies(self):
        return requests.get('http://localhost:5000/weibo/random').text

    def get_proxy(self):
        return requests.get('http://localhost:5010/get/').text

    def process_request(self, request, spider):
        # 设置随机的User-Agent
        request.headers.setdefault(b'User-Agent', self.get_user_agent())
        # 设置代理IP
        # request.meta['proxy'] = 'http://' + self.get_proxy()
        request.cookies = eval(self.get_cookies())
        return None
settings.py 代码:

DOWNLOADER_MIDDLEWARES = {
   'Weibo.middlewares.WeiboDownloaderMiddleware': None,
   'Weibo.middlewares.UserAgentMiddlewares': 543,

}

USER_AGENT_TYPE = 'random'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值