爬虫与反爬虫的博弈

最新推荐文章于 2023-09-22 09:33:06 发布

qq_16069927

最新推荐文章于 2023-09-22 09:33:06 发布

阅读量167

点赞数 1

分类专栏：爬虫

原文链接：https://www.cnblogs.com/zhaof/p/7326260.html

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

爬虫与发爬虫的厮杀，一方为了拿到数据，一方为了防止爬虫拿到数据，谁是最后的赢家？

重新理解爬虫中的一些概念

爬虫:自动获取网站数据的程序
反爬虫：使用技术手段防止爬虫程序爬取数据
误伤：反爬虫技术将普通用户识别为爬虫，这种情况多出现在封ip中，例如学校网络、小区网络再或者网络网络都是共享一个公共ip，这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特别好，通常都是禁止某ip一段时间访问。
成本：反爬虫也是需要人力和机器成本
拦截：成功拦截爬虫，一般拦截率越高，误伤率也就越高

反爬虫的目的

初学者写的爬虫：简单粗暴，不管对端服务器的压力，甚至会把网站爬挂掉了

数据保护：很多的数据对某些公司网站来说是比较重要的不希望被别人爬取

商业竞争问题：这里举个例子是关于京东和天猫，假如京东内部通过程序爬取天猫所有的商品信息，从而做对应策略这样对天猫来说就造成了非常大的竞争

爬虫与反爬虫大战

上有政策下有对策，下面整理了常见的爬虫大战策略

所有的努力都值得期许，每一份梦想都应该灌溉！

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。