Python scrapy 爬虫入门（七）突破反爬虫技术

最新推荐文章于 2024-06-23 10:28:56 发布

fengyang182

最新推荐文章于 2024-06-23 10:28:56 发布

阅读量649

点赞数 1

分类专栏：爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fengyang182/article/details/105095807

版权

本文介绍了Python Scrapy爬虫如何应对反爬虫技术，包括降低请求频率、修改请求头、禁用cookie、伪装成随机浏览器以及使用HTTP代理服务器。通过设置DOWNLOAD_DELAY、修改User-Agent、禁用COOKIES_ENABLED以及利用fake_useragent库，有效提升爬虫的隐蔽性。

摘要由CSDN通过智能技术生成

1 反爬虫技术及突破措施

1.1 降低请求频率

降低请求频率以模仿人类用户，而不是机器。
settings.py中设置DOWNLOAD_DELAY即可

# 即两次请求间隔为 3 秒
DOWNLOAD_DELAY = 3

另外，为了防止请求过于规律，可以使用RANDOMIZE_DOWNLOAD_DELAY设置一个介于0.5* DOWNLOAD_DELAY和1.5 *DOWNLOAD_DELAY之间的随机延迟时间。

RANDOMIZE_DOWNLOAD_DELAY = TRUE

1.2 修改请求头

伪装用户进行爬虫时，一定不要忘记设置请求头以表示自己是人形用户。特别是警觉性比较高的网站，请求头的信息可能比较特殊。

1.3 禁用 cookie

如果不是特殊需求（如模拟登录）,最好禁用 cookie，以使网站不能通过 cookie 侦测到爬虫。在配置文件settings.py中将COOKIES_ENABLED设置为False即可（默认是True）

COOKIES_ENABLED = False

1.4 伪装成随机浏览器

1.5 更换 IP 地址

2 伪装成随机浏览器

Scrapy自带有专门设置User-Agent的中间件UserAgentMiddleware，在爬虫运行时，会自动将User-Agent添加到HTTP请求中，并且

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。