Python 爬虫中遇到的反爬虫问题

源网站一般会有下面几种限制
1、一定时间内单个IP访问次数,一个正常用户访问网站,除非是随意的点着玩,否则不会在一段持续时间内过快访问一个网站,持续时间也不会太长,我们可以采用大量不规则代理ip形成一个线程池,随机从代理池中选择代理,模拟访问。代理有两种,透明代理和匿名代理。

2、一定时间内单个账号访问次数,如果一个人一天24小时都在访问一个数据接口,而且速度非常快,那就有可能是机器人。我们可以采用大量行为正常的账号,行为正常就是普通人怎么在社交网站上的操作,并且单位时间内,访问url数目尽量减少,可以每次访问中间间隔一段时间,这段时间可以是一个随机量,即每次访问完一个url,随机睡眠一段时间,在接着访问下一个url。

3、如果能把账号和ip的访问策略控制好,就可以了当然对方网站也会有运维需要调整策略,敌我双方的一次较量,爬虫必须要感知到对方的反盗控将会对我们有影响,通知管理员及时处理。其实最理想的是能够通过机器学习,智能的实现反盗控制,实现不间断抓取

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值