scrapy中设置随机代理

最新推荐文章于 2024-03-13 19:16:17 发布

maverick17

最新推荐文章于 2024-03-13 19:16:17 发布

阅读量776

点赞数 1

分类专栏：学习总结

本文链接：https://blog.csdn.net/maverick17/article/details/79946480

版权

学习总结专栏收录该内容

9 篇文章 0 订阅

订阅专栏

使用fake_useragent来进行伪代理，安装：pip install fake_useragent

首先在middleware.py中写一个随机更换user-agent的class

from fake_useragent import UserAgent
class RandomUserAgentMiddleware(object):
    # 随机更换useragent
    def __init__(self, crawler):
        super(RandomUserAgentMiddleware, self).__init__()
        self.ua = UserAgent()
        #self.ua_type = crawler.settings.get("RANDOM_UA_TYPE", "random")

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    def process_request(self, request, spider):

        request.headers.setdefault('User-Agent', self.ua.random)

ua = Useragent()ua.ieua.chromeua.random #会随机生成一个浏览器的user-agent

为了让user-agent可配置，可在setting文件中增加一行配置：

RANDOM_UA-TYPE = ''rando”

class RandomUserAgentMiddleware(object):
    # 随机更换useragent
    def __init__(self, crawler):
        super(RandomUserAgentMiddleware, self).__init__()
        self.ua = UserAgent()
        self.ua_type = crawler.settings.get("RANDOM_UA_TYPE", "random")

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    def process_request(self, request, spider):
        def get_ua():   # 闭包，用于获取ua_type
            return getattr(self.ua, self.ua_type)
        request.headers.setdefault('User-Agent', get_ua())

maverick17

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy中设置随机代理

使用fake_useragent来进行伪代理，安装：pip install fake_useragent 首先在middleware.py中写一个随机更换user-agent的classfrom fake_useragent import UserAgentclass RandomUserAgentMiddleware(object): # 随机更换useragent ...
复制链接

扫一扫