python爬虫反爬-爬虫怎么测试反爬？

最新推荐文章于 2023-11-10 15:58:31 发布

weixin_39774490

最新推荐文章于 2023-11-10 15:58:31 发布

阅读量867

点赞数

网站有没有反爬，如果你没有用爬虫抓取过，你是不可能知道的。

就算要测试，你还要尝试不同的delay。

如果设置的 delay 在网站的反爬频率外，那就测不出来。

如果在频率内，那就被封。或者封ip，或者封账号。

如果一定要测出来，就简单粗暴的方法，你不要设置delay，就不间断的抓，最后出现两种情况，

1、网站有反爬，你被封。

然后呢，这个结果没意义，除非你能准备测试出网站反爬的那个频率，才能针对的做出一些防反爬的措施。

2、网站没反爬，没被封。

这个好像是你要的结果。但是这个也有不同情况，你要测多长时间，才能触发到网站的反爬机制。

还有，相同的delay，相同的网站，用不同工具抓取，也会出现不同的效果。

其实，不管你抓什么网站，就道德方面，你都要把网站当成有反爬来对待。如果因为网站没反爬，你就不设置delay，不停的抓取，占据网站的带宽，那正常的用户，可能就会出现一些无法响应等的异常情况，这不道德啊。

如果你是编程的话，设置随机delay，隔段时间切换ip。

如果你是使用工具，比如火车头、八爪鱼、webscraper的话，我建议使用webscraper

webscraper是个谷歌插件，有如下优点——免费

不受操作系统限制，只要安装Chrome浏览器即可运行

操作简单，易上手。（很多没有技术背景的同学，都可以快速学会）

功能强大：不仅可以抓静态网页，对于js动态加载的数据，也很容易抓取

根据已经测试的经历，下列类型网站均可抓取——58同城、大众点评、美团、链家等

微信公众号、简书、知乎、博客等

淘宝、阿里巴巴、网易严选等可以在浏览器查看到的数据，99%均可抓取。

而且防反爬比其他工具好很多，据实践研究，用其他工具很容易被封的网站，用webscraper就没事。

下面这个网站有学习webscraper的系统资料，有兴趣可以看看。不用写代码的爬虫技能 | 知识星球精选站www.zsxq100.com

weixin_39774490

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫反爬-爬虫怎么测试反爬？

网站有没有反爬，如果你没有用爬虫抓取过，你是不可能知道的。就算要测试，你还要尝试不同的delay。如果设置的 delay 在网站的反爬频率外，那就测不出来。如果在频率内，那就被封。或者封ip，或者封账号。如果一定要测出来，就简单粗暴的方法，你不要设置delay，就不间断的抓，最后出现两种情况，1、网站有反爬，你被封。然后呢，这个结果没意义，除非你能准备测试出网站反爬的那个频率，才能针对的做出一些防...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。