反爬虫技术

最新推荐文章于 2024-08-20 19:02:42 发布

置顶风清竹叶青

最新推荐文章于 2024-08-20 19:02:42 发布

阅读量4.9k

点赞数 7

分类专栏：人工智能文章标签：爬虫反爬虫反爬虫技术反爬虫架构设计反爬虫方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43160039/article/details/82530361

版权

人工智能专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.反爬虫是因为爬虫才诞生的，想要很好的运用反爬虫，就要先清楚爬虫及爬虫机制。先了解一下爬虫，反爬虫的概念，如下：
爬虫：使用任何技术及手段，批量抓取网站信息的一种方法，且关键在于批量。
反爬虫：即为使用任何技术及手段，阻止被人抓取自己网站信息的一种方法，关键在于批量和减少阻止过程中的误伤。
2.反爬虫是针对爬虫设计的，一般架构如下：
对请求进行数据统计等预处理，便于识别爬虫
识别是否是爬虫
针对识别结果，进行适当处理
通常网站为力避免普通用户遭到误伤，而做不到完全的拦截爬虫机制的！
3.目前常用的反爬虫技术

（1.）后台对访问进行统计，单位时间内同一IP访问的次数超过一个特定的值（阀值），就封IP。效果不是很好，不过针对三月爬虫效果还是不错的，目前用的也是很多的。
-（2.）后台对访问的session进行统计，单位时间内同一session访问的次数超过一个特定的阀值，就封IP,同样效果不是很好，好的爬虫仍然能伪装的躲过。
( 3.）后台对访问的User_Agent进行统计，单位时间内同一User_Agent访问的次数超过特定的阀值，封IP，此法效果不过，但误伤大，任何误伤大的反爬虫机制，无论效果多好，都会被谨慎使用的。
（4.）重要数据需账号注册登录后方可获得，同时利用js和AJAX的动态效果，只让正常登录者访问，让爬虫无法正常读取，进行发爬虫，效果相对较好。
（5.）对数据进行玷污处理，真假数据混合存储，不知道正确的解析方式，数据拿到手也是无用。
（6.）交押金，用户先交押金才能访问，当访问重要数据时扣除相应的押金，一定周期进行结算，后台根据日志，IP，User_Agent,session等进行统计分析，对于真正的用户退还押金，爬虫用户押金没收同时封IP。此法有一定的可行性，但也有诸多弊端。
目前网站的反爬虫机制都不是以上单一的一个，再好的反爬虫机制也是不能做到完全反爬虫的，爬虫与反爬虫相爱相杀的促进技术的更新换代。

风清竹叶青

关注

7
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

风清竹叶青 CSDN认证博客专家 CSDN认证企业博客

码龄6年

23: 原创

74万+: 周排名

69万+: 总排名

15万+: 访问

: 等级

1209: 积分

52: 粉丝

92: 获赞

10: 评论

384: 收藏

私信

关注

热门文章

分类专栏

python基础 15篇
Python个
自动化 2篇
linux 1篇
Hadoop 1篇
数据库 3篇
基础 3篇
大数据 1篇
web前端 5篇
python之程序人生 1篇
人工智能 3篇
Flask 1篇
IT基础 1篇

最新评论

web页面PC端和移动端的区别
weixin_45417679: 能否就使用时间区别上举个设计案例具体说明一下呢？
GUI是什么
m0_73803633: GUI的广泛应用是当今计算机发展的重大成就之一，它极大地方便了非专业用户的使用人们从此不再需要死记硬背大量的命令，取而代之的是通过窗口、菜单、按键等方式来方便地进行操作。
GUI是什么
哎呀呀642: 挺好，谢谢答主
redis和mongodb各自的优缺点，怎么选择？
旺仔OO糖: 给大佬递茶，最近也在学习相关知识，希望得到大佬的肯定和支持!
python基础常用函数
输入昵称嗯: isinstance(x, str) 可以判断变量 x 是否是字符串

大家在看

绝缘子缺陷检测数据集 295

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。