异常检测算法之(KNN)-K Nearest Neighbors

VIP文章一缕阳光lyz

已于 2022-06-14 15:34:32 修改

阅读量454

点赞数

分类专栏：异常检测文章标签：算法 sklearn 机器学习

于 2022-06-14 15:31:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lyzsun8295/article/details/125279080

版权

sklearn库里的KNN并没有直接用于异常检测，但是包含了距离计算的函数，所以我们应用PyOD中KNN库进行异常检测，里面基本上也是调用sklearn的函数进行计算，并进行了一些加工。

一、图解KNN异常检算法

KNN怎么进行无监督检测呢，其实也是很简单的，异常点是指远离大部分正常点的样本点，再直白点说，异常点一定是跟大部分的样本点都隔得很远。基于这个思想，我们只需要依次计算每个样本点与它最近的K个样本的平均距离，再利用计算的距离与阈值进行比较，如果大于阈值，则认为是异常点，同样，为了帮助读者理解如何利用KNN思想，实现异常值的识别，我画了下面这张图。对于第一个，3个邻居的平均距离为（2+2+3）/3=2.33，对于第二点，3个邻居的平均距离为（7+8+5）/3=6.667，明显，第二个点的异常程度要高与第一个点。当然，这里除了平均距离，还可以用中位数，也可以用最大距离，通过method这个参数进行控制。

优点是不需要假设数据的分布，缺点是不适合高维数据、只能找出异常点，无法找出异常簇、你每一次计算近邻距离都需要遍历整个数据集，不适合大数据及在线应用、有人用hyper-grid技术提速将KNN应用到在线情况，但是还不是足够快，仅可以找出全局异常点，无法找到局部异常点。

KNN异常检测过程：对未知类别的数据集中的每个点依次执行以下操作：

1) 计算当前点与数据集中每个点的距离

2) 按照距离递增次序排序

3) 选取与当前点距离最小的k个点

4) 计算当前点与K个邻居的距离，并取均值、或者中值、最大值三个中的一个作为异常值

1、异常实例计算

无监督，我们就要标签去掉，为了演示过程，我们引进了9号嘉宾，这个人非常自信，每一项都填的非常高，明显异常，我们的目的就是要把这种类似的异常的数据找出来。

2、距离计算和排序

我们计算9号的异常程度，我们这里把计算和排序两步统一到一起了

先计算9号与其他样本的距离，然后排序，取最近的三个，我们计算平均距离，可以看到，9号与最近的三个邻居的平均距离是9.29

3、计算距离值

我们再计算4号嘉宾的距离，可以看到，最近的三个邻居与4号的平均距离为3.07，只是9号的三分之一&

最低0.47元/天解锁文章

一缕阳光lyz

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
异常检测算法之(KNN)-K Nearest Neighbors

异常检测算法之(KNN)-K Nearest Neighbors
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。