python爬虫与反爬虫的战争

最新推荐文章于 2024-08-22 17:36:33 发布

万变ip

最新推荐文章于 2024-08-22 17:36:33 发布

阅读量177

点赞数

分类专栏：网络爬虫编程文章标签： python html 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wanbianip/article/details/108667120

版权

网络爬虫同时被 2 个专栏收录

22 篇文章 1 订阅

订阅专栏

22 篇文章 0 订阅

订阅专栏

随着互联网的不断发展,很多计算机工作者不再满足于不能自己控制的目标不够明确的搜索引擎,于是网络爬虫应景而生.大量网络爬虫的应用会显著地增加目标网站的服务器的负载,影响正常浏览网站用户的体验.因此网站为了对抗网络爬虫技术带给网站的影响,反爬虫技术由此而生。

一、IP活动出现异常

网站主能够利用网站流量统计看得出一些异常浏览，例如相同IP地址推送了越来越多相近的请求，相同IP浏览的速度反人类，那么网站主便会作出反击。·

1、浏览速率限定
2、浏览频繁出现验码
3、限定此IP浏览时长

反爬建议：通过使用**万变ip**代理，减少单ip访问的频次与次数，也能很好的保护个人真实ip地址。选择代理IP，减少单IP访问频率和次数。

二、注册和登录

越来越多网站或是论坛都有限定，必须注册登录了才可以浏览某些版块，可是也会避免批量注册和登录，例如注册需要Email验证或是手机验证，需要利用推送的邮件链接或是短信验证码来解锁账户，而且具备唯一性;注册和登录时还需要填写复杂的验码等等。

反爬建议：批量注册或是选择账户，仿真模拟登录，减少频率。

三、采用验码

验码能够有效性地阻拦网络爬虫，但也会对真正的用户造成不太好的体验，例如浏览了几个页面就弹出来验码，这是很不友好的。

一些网站将文本转变成图片来显示，为此来阻拦网络爬虫，这类方法能够阻拦简单的网络爬虫获取文本，但针对一些屏幕阅读器来说很不友好，例如在电脑上能够看清楚图片中的文本，但在移动手机端看就特别模糊了。四、文本转图片

反爬建议：采用OCR图片识别技术。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。