python爬虫反爬-爬虫怎么测试反爬?

网站有没有反爬,如果你没有用爬虫抓取过,你是不可能知道的。

就算要测试,你还要尝试不同的delay。

如果设置的 delay 在网站的反爬频率外,那就测不出来。

如果在频率内,那就被封。或者封ip,或者封账号。

如果一定要测出来,就简单粗暴的方法,你不要设置delay,就不间断的抓,最后出现两种情况,

1、网站有反爬,你被封。

然后呢,这个结果没意义,除非你能准备测试出网站反爬的那个频率,才能针对的做出一些防反爬的措施。

2、网站没反爬,没被封。

这个好像是你要的结果。但是这个也有不同情况,你要测多长时间,才能触发到网站的反爬机制。

还有,相同的delay,相同的网站,用不同工具抓取,也会出现不同的效果。

其实,不管你抓什么网站,就道德方面,你都要把网站当成有反爬来对待。如果因为网站没反爬,你就不设置delay,不停的抓取,占据网站的带宽,那正常的用户,可能就会出现一些无法响应等的异常情况,这不道德啊。

如果你是编程的话,设置随机delay,隔段时间切换ip。

如果你是使用工具,比如火车头、八爪鱼、webscraper的话,我建议使用webscraper

webscraper是个谷歌插件,有如下优点——免费

不受操作系统限制,只要安装Chrome浏览器即可运行

操作简单,易上手。(很多没有技术背景的同学,都可以快速学会)

功能强大:不仅可以抓静态网页,对于js动态加载的数据,也很容易抓取

根据已经测试的经历,下列类型网站均可抓取——58同城、大众点评、美团、链家等

微信公众号、简书、知乎、博客等

淘宝、阿里巴巴、网易严选等可以在浏览器查看到的数据,99%均可抓取。

而且防反爬比其他工具好很多,据实践研究,用其他工具很容易被封的网站,用webscraper就没事。

下面这个网站有学习webscraper的系统资料,有兴趣可以看看。不用写代码的爬虫技能 | 知识星球精选站​www.zsxq100.com

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值