Scrapy中设置User-Agent(本文主要目的是学习如何为爬虫程序的每次请求随机分配User-Agent)

本文介绍了在Scrapy中如何通过中间件实现每次请求的User-Agent随机化,以避免被目标网站识别为爬虫。作者首先指出在settings.py中设置USER_AGENT仅在启动时随机选取一次,随后详细讲解了两种创建下载中间件的方法,一种是直接在中间件中设置请求头,另一种是继承UserAgentMiddleware并重写相关方法,实现在每次请求时动态设置随机User-Agent。
摘要由CSDN通过智能技术生成

初学scrapy中,以为在settings.py中的USER_AGENT = 'xxxx'  设置随机的User-Agent(UA)可以达到每次请求都有不同的UA的效果.>>>>>其实不是,这只能在每次运行时随机调用其中的一个UA.(看图)


(在spider中打印User-Agent看看究竟)



(可以看到每次运行scrapy时会有不同的User-Agent)


(改改代码,设置一下回调,看看能不能打印出两条User-Agent)


(打印结果很明确了,两次都是同一个User-Agent,原因如下)

因为,运行(scrapy crawl xxxx)时,scrapy引擎传达发送请求的任务给scheduler调度器,此时scheduler将请求入队列,发给Downloader下载器,取获取目标页面的response响应,Downloader

  • 7
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Scrapy可以通过在settings.py文件设置USER_AGENTS列表来实现随机user-agent。在列表添加多个user-agentScrapy随机选择一个作为请求user-agent。这样可以避免被网站识别为爬虫,提高爬虫的稳定性和成功率。具体设置方法如下: 1. 在settings.py文件添加USER_AGENTS列表,如下所示: ``` USER_AGENTS = [ 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36', 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; AS; rv:11.0) like Gecko', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36', ] ``` 2. 在middlewares.py文件添加RandomUserAgentMiddleware间件,如下所示: ``` from scrapy import signals import random class RandomUserAgentMiddleware(object): def __init__(self, agents): self.agents = agents @classmethod def from_crawler(cls, crawler): return cls(crawler.settings.getlist('USER_AGENTS')) def process_request(self, request, spider): request.headers.setdefault('User-Agent', random.choice(self.agents)) ``` 3. 在settings.py文件启用RandomUserAgentMiddleware间件,如下所示: ``` DOWNLOADER_MIDDLEWARES = { 'myproject.middlewares.RandomUserAgentMiddleware': 543, 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, } ``` 这样就完成了随机user-agent设置
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值