scrapy使用随机User-Agent

最新推荐文章于 2024-04-10 22:43:14 发布

麦麦麦造

最新推荐文章于 2024-04-10 22:43:14 发布

阅读量492

点赞数

分类专栏：爬虫文章标签： python scrapy 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Alisen39/article/details/82751313

版权

scrapy使用随机User-Agent

众所周知，User-Agent值是用来帮助服务器识别用户使用的操作系统、浏览器、浏览器版本等等信息的，因此也常被用来检测爬虫。

许多网站会ban掉来自爬虫的请求，来达到反爬的目的。

正常浏览器的User-Agent值为：

Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0

使用requests时的默认User-Agent为：

python-requests/2.18.4

scrapy的默认值为：

Scrapy/1.5.0 (+https://scrapy.org)

服务器可以轻易识别出该请求是否来自爬虫。

因此为了减小爬虫被ban的几率，我们可以通过设置请求的User-Agent来达到欺骗服务器的目的。

在scrapy里，设置随机的User-Agent有两种方式

通过middlware添加
在spider的request里添加

首先介绍第一种，通过middleware添加

安装fake-useragent
pip install fake-useragent
这个包里内置了许多浏览器的User-Agent，这样就不用我们自建一个User-Agent池了

在你的scrapy项目的middlewares.py导入fake-useragent包
from fake_useragent import UserAgent
然后将下面的RandomUserAgentMiddlware复制进去

class RandomUserAgentMiddlware(object):
    #随机更换user-agent
    def __init__(self

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy使用随机User-Agent

scrapy使用随机User-Agent众所周知，User-Agent值是用来帮助服务器识别用户使用的操作系统、浏览器、浏览器版本等等信息的，因此也常被用来检测爬虫。许多网站会ban掉来自爬虫的请求，来达到反爬的目的。正常浏览器的User-Agent值为：Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 F...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。