scrapy采集数据时为每个请求随机分配user-agent

最新推荐文章于 2024-05-28 09:35:00 发布

鸭脖

最新推荐文章于 2024-05-28 09:35:00 发布

阅读量3.9k

点赞数

分类专栏： Python学习

Python学习专栏收录该内容

51 篇文章 1 订阅

订阅专栏

通过这个方法可以每次请求更换不同的user-agent，防止网站根据user-agent屏蔽scrapy的蜘蛛

首先将下面的代码添加到settings.py文件，替换默认的user-agent处理模块

 
    DOWNLOADER_MIDDLEWARES = {
 
        'scraper.random_user_agent.RandomUserAgentMiddleware': 400,
 
          'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware':None,
 
    }

自定义useragent处理模块

view source

print ?

 
    from scraper.settings import USER_AGENT_LIST
 
    import random
 
    from scrapy import log
 
    class RandomUserAgentMiddleware(object):
 
        def process_request(self, request, spider):
 
            ua  = random.choice(USER_AGENT_LIST)
 
            if ua:
 
                request.headers.setdefault('User-Agent', ua)
 
            #log.msg('>>>> UA %s'%request.headers)
 
    #该代码片段来自于: http://www.sharejs.com/codes/python/8394

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

鸭脖

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy采集数据时为每个请求随机分配user-agent

通过这个方法可以每次请求更换不同的user-agent，防止网站根据user-agent屏蔽scrapy的蜘蛛首先将下面的代码添加到settings.py文件，替换默认的user-agent处理模块DOWNLOADER_MIDDLEWARES = { 'scraper.random_user_agent.Random
复制链接

扫一扫