爬虫和反爬虫机制

最新推荐文章于 2024-08-25 09:19:51 发布

Bulldozer++

最新推荐文章于 2024-08-25 09:19:51 发布

阅读量831

点赞数 2

分类专栏：安全 python 爬虫文章标签：爬虫和反爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Bulldozer_GD/article/details/108700804

版权

安全同时被 2 个专栏收录

30 篇文章 5 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

反爬虫机制：

一。基于数据加密的反爬
1.通过Css来反爬虫
原理：源代码数据不为真的数据，需要通过css位移
2.通过js动态生成数据进行反爬
思路：解析关键js,获取数据生成流程，模拟生成数据
3.数据图片化

二。基于爬虫行为进行反爬虫
1.请求ip/账号单位时间内总请求数量判断
原理：正常浏览区请求网站，速度不会太快，同一个ip账号大量请求了对方服务器，有更大的可能性会被识别为爬虫

思路：对应的通过购买高质量的ip的方式解决问题
2.每天请求次数设置阈值
原理：正常的浏览器行为，一天的请求次数有限的
思路：买高质量ip ，同时设置请求间随机休眠

3.同一ip/账号请求之间的间隔判断
原理：正常请求间隔是随机的。而爬虫两个请求之间间隔相对固定同时时间较短
思路：请求之间随机等待，尽量使用代理池

4.运维平台综合审计
运维平台综合管理，采用复合型反爬虫策略，多种手段同时使用

5.阻塞网络IO
原理：发送请求获取响应的过程实际上就是下载的过程，在任务队列中混入一个大文件的url,当爬虫在进行该请求时会占用网络io

阻塞任务队列
原理：通过生成大量垃圾url,从而阻塞任务队列，降低爬虫实际工作效率。
思路：观察运行过程中请求响应状态/仔细分析源码获取垃圾url生成规则，对url过滤

7.通过假数据反爬
原理：向返回的响应中添加假数据污染数据库
思路：长期运行，核对数据库中数据同实际页面中数据对应情况

8.通过蜜罐获取爬虫ip（代理ip）
在爬虫获取链接进行请求过程中，爬虫根据正则xpath css 等方式进行后续链接提取，此时服务器端可以设置一个陷阱url,会被提取规则获取，但是正常用户无法获取就能区分爬虫和正常用户。

9.通过js 实现跳转来反爬虫
原理：js实现页面跳转，无法在源代码中获取下一页url

三。基于身份识别
1.通过headers 中的user-agent 字段反爬虫
原理：爬虫默认情况下没有user-agent,而是使用默认设置
思路：请求前添加user-agent ,最好使用user-agent池活随机生成

2.通过cookie
原理：检查cookie来查看发起请求的用户是否具备相应权限
思路：进行模拟登陆，成功获取cookie后进行数据爬取

3.referer 字段
原理：爬虫通常不会待referer字段

4.通过验证码
原理：弹出验证码强制验证用户浏览行为
思路：机器学习识别打码平台

5.通过js 生成请求参数
思路：分析js,观察加密过程的实现，使用selenium

6。通过从html静态文件中获取请求数据
原理：通过增加获取请求参数的难度进行反爬

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Bulldozer++ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。