反爬虫策略

最新推荐文章于 2024-05-27 08:52:59 发布

dodobibibi

最新推荐文章于 2024-05-27 08:52:59 发布

阅读量450

点赞数

分类专栏： python 文章标签：反爬虫 scrapy python ip 代理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dodobibibi/article/details/87888702

版权

本文介绍了五种反爬虫策略：设置下载延迟减少服务器负载，禁止cookies避免暴露爬虫轨迹，使用user agent池混淆爬虫身份，利用代理IP应对IP封锁，以及采用Scrapy+Redis+MySQL实现分布式爬虫，提升抓取效率。

摘要由CSDN通过智能技术生成

策略一：设置download_delay

作用：设置下载的等待时间，大规模集中的访问对服务器的影响最大，相当与短时间中增大服务器负载。
缺点：下载等待时间长，不能满足段时间大规模抓取的要求，太短则大大增加了被ban的几率。

策略二：禁止cookies

Cookie，有时也用其复数形式 Cookies，指某些网站为了辨别用户身份、进行 session跟踪而储存在用户本地终端上的数据（通常经过加密）。
作用：禁止cookies也就防止了可能使用cookies识别爬虫轨迹的网站得逞。
实现：COOKIES_ENABLES=False

策略三：使用user agent池(拓展: 用户代理中间件)

为什么使用? scrapy本身是使用Scrapy/0.22.2来表明自己身份的。这也就暴露了自己是爬虫的信息。
user agent，是指包含浏览器信息、操作系统信息等的一个字符串，也称之为一种特殊的网络协议。服务器通过它判断当前访问对象是浏览器、邮件客户端还是网络爬虫。

通常在下载器中间件中进行处理。比如在setting.py中建立一个包含很多浏览器User-Agent的列表，然后新建一个random_user_agent文件：

class RandomUserAgentMiddleware(object):
    @classmethod
    def process_request(cls, request, spider):
        ua = random

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
反爬虫策略

反爬虫策略策略一：设置download_delay策略二：禁止cookies策略三：使用user agent池(拓展: 用户代理中间件)策略四：使用代理IP中间件策略五: 分布式爬虫Scrapy+Redis+MySQL(多进程)
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。