web自动爬虫扫描的缺点

最新推荐文章于 2024-01-18 16:30:28 发布

heayin123

最新推荐文章于 2024-01-18 16:30:28 发布

阅读量1.2k

点赞数

分类专栏： web安全

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012684933/article/details/21937401

版权

web安全专栏收录该内容

34 篇文章 2 订阅

订阅专栏

虽然自动爬虫扫描用起来很简单，但是存在如下缺点：

1. 不支持非普通的搜寻，例如动态生成的菜单或者复杂的javascript脚本，这样导致搜寻的页面不全

2. 隐藏在经过编译的客户端对象里面的链接，例如java applet或者flash不能被爬虫发现

3.多级功能往往不能接收由自动扫描工具提交的随意的数据，例如注册用户名的时候，往往需要填写正确的电话号码、email地址

4.为了避免扫描死循环，自动扫描往往把URL作为扫描的唯一标示符，也就是一个url扫描一次。但是对于某些情况，同一个URL可能会根据参数值返回不通的函数和内容进行下一步的处理。例如在使用网银的时候往/account.jsp发送请求，网银根据参数值决定下一步的行动。因此自动扫描器对一个URL只扫描一次往往会错过很多页面内容

5.URL数据里面可能被服务器放入了不是用来确定资源的volatile数据，这些数据每次请求都不一样，看起来总是像新的URL，这些数据可能导致扫描器死循环

6.虽然扫描器配置了认证之后能够通过认证后爬取页面，但是认证可能被以下几点原因打断

a. 爬虫扫描可能请求了退出按钮

b. 某些敏感的功能，接收到异常数据后有可能异常退出此次session

c, 服务器可能对每个页面添加了独特的token，自动爬虫扫描很可能不能有效处理这些token

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
web自动爬虫扫描的缺点

虽然自动爬虫扫描用起来很简单，但是存在如下缺点：1. 不支持非普通的搜寻，例如动态生成的菜单或者复杂的javascript脚本，这样导致搜寻的页面不全2. 隐藏在经过编译的客户端对象里面的链接，例如java applet或者flash不能被爬虫发现3.多级功能往往不能接收由自动扫描工具提交的随意的数据，例如注册用户名的时候，往往需要填写正确的电话号码、email地址4.为了避免扫描
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。