反爬终极思路

**

反爬终极思路

**
现在的反爬机制大多从限制ip,限制登陆(各种登录验证),访问频率(速度过快,出现人机验证等),以及携带签名等方式。但由于太严格的限制会误伤真实的用户,因此无法从根本防止数据被获取(当然现在也有一些高级做法,自定义字体,具体我就不说了,百度一下都有,这种方式能拦截掉几乎99%的爬虫)。最近做的一些爬虫中,发现了一些问题,有了一些新思路。首先反爬首先需要明确两个问题:
1、爬虫是如何抓取数据的?
2、如何阻止爬虫获取数据?

爬虫获取数据无非是将网页上显示的内容获取下来,那么只要不显示或者说显示不完整,就永远可以防止数据被抓去。这里举个例子:
假设我们有一万条数据需要展示(其中两千条数据属于用户关注度高的数据,八千条数据关注度较低),当一个ip来请求我们接口时,我们只给两千零五条数据(其中两千条为关注度高的数据,五条为八千里随机的五条)。

这样就可以在既不影响用户浏览的前提下,杜绝了数据库的信息都被抓取光。(这里还可以设置收费制度,比如电商平台,就可以收费的情况下让其在两千条内,否则就在八千随机里)

这里只是大概分享一下我的想法,实际情况还需要实际考虑,比如有些行业所有的数据都需要展示,像新闻这种是没有办法应用的。目前这种思路,某招聘网站已经采用了这种方式,还是有一定的实用性的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值