解决防爬虫机制方法(一)

本文分享了作者在完成学校大数据作业时遇到的网站防爬挑战,包括设置time.sleep()处理网速问题、使用IP代理池和伪装池避免频繁抓取,以及处理登录和验证码的方法。适合初级爬虫者参考。
摘要由CSDN通过智能技术生成

最近为了完成学校的大数据的作业,老师要我们爬一个的网站,里面有还算不错的防爬机制,忙活了几天,总结出一些常见的防爬机制的应对方法,方法均来自个人实战总结,非专业爬虫角度分析

1.响应时间过快

1.1网速不太行

一般有小伙伴不习惯设置time.sleep()这个方法,但是这个方法能解决很多问题,第一就是你网速不太行,网页还没解析完就跑到下面提取里面了,所以有时候因为进程问题,代码运行稍微快点有时候就会提取那里出现提取为空这样的情况,主要可能还是网速跟不上,建议无论好不好都在解析那部分下面加上一个缓冲时间。

1.2有频率监控

我们爬的那个网站应该有游客点击频率监控,有时候在网站上点击速度稍微快一点,就要你登录要你真人验证,模拟登录那块我试了,但没成功,有需要的小伙伴可以参考其他教程

爬虫中关于登录以及登录验证码的简单处理方法_爬虫 发送code 登录 0b1ondga16zh8f0xiuha1haagp3ondgt-CSDN博客

对于我本次作业来说,同样还是设置了sleep来解决这问题,但是可能设置的时间比较长,大概30多秒爬一个子网站,虽然有点慢,但是还算比较稳定,没怎么被抓到

2.伪装不够好 

2.1设置ip代理池

一般要设置ip代理池这样不断用新的ip访问这样被抓的概率低一点,获取ip代理池的方法我也发过

免费搭建ip代理池的保姆级方法(最详细最有效)-CSDN博客

主要是通过一些免费网站获取后再调用接口来给自己使用

2.2伪装池设置 

伪装池设置这方面相对来说就可能简单一点,如果有登录的网站最好先登录再从控制台提取到自己的cookies,有些网站的游客cookies的存活时间比较短,最好提取之后就挂着网页不要关了,这样至少你用的cookies不会被网址删除,而且建立headers主要还是里面的cooies不同,建议叫人帮忙登录拿多几个cookies之后random着来用,这样被追踪到的概率会低一点,相对于上面的操作来说这个简单一些

这些方法还是比较适用于一些比较简单的爬取,如果是大佬级别或者是长时间爬取的仅供参考

希望这篇博客对你有帮助!!!!!

  • 14
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值