异常检测学习之基于相似度的方法

感想

这一节内容,没有看的特别明白。先把自己理解的部分归纳下。
基于相似度的方法:就是通过一个指标来衡量同类样本具有共性归为一类,然后把少数样本分辨出来判定为异常样本。而这里的指标是距离。
基于距离的方法是一种常见的适用于各种数据域的异常检测算法,它基于最近邻距离来定义异常值。 此类方法不仅适用于多维数值数据,在其他许多领域,例如分类数据,文本数据,时间序列数据和序列数据等方面也有广泛的应用。
基于距离的异常检测有这样一个前提假设,即异常点的 近邻距离要远大于正常点。解决问题的最简单方法是使用嵌套循环。 第一层循环遍历每个数据,第二层循环进行异常判断,需要计算当前点与其他点的距离,一旦已识别出多于 个数据点与当前点的距离在 之内,则将该点自动标记为非异常值。
这样计算的时间复杂度为 ,当数据量比较大时,这样计算是及不划算的。 因此,需要修剪方法以加快距离计算。
算法思路是:
①、先规定基点;
②、求出所有基点至其他点之间的距离;
③、判断各距离和阈值对比,大于阈值的点划为异常点

详细参考资料:https://github.com/datawhalechina/team-learning-data-mining/blob/master/AnomalyDetection/%E5%9B%9B%E3%80%81%E5%9F%BA%E4%BA%8E%E7%9B%B8%E4%BC%BC%E5%BA%A6%E7%9A%84%E6%96%B9%E6%B3%95.md

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值