基于聚类的离群点检测

最新推荐文章于 2024-04-16 15:05:19 发布

VIP文章 ChasingdreamLY

最新推荐文章于 2024-04-16 15:05:19 发布

阅读量2.1w

点赞数 9

分类专栏： R语言文章标签：离群点检测聚类分析数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26591517/article/details/50677889

版权

在利用R软件进行数据挖掘时，离群点检测经常是必不可少的一部分。离群点检测的任务是发现与大部分其它对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声丢弃，然而在部分情况下，罕见的数据可能蕴含着更大的研究价值。

离群点检测的方法很多，例如：
基于统计的离群点检测：在已知目标概率分布模型的前提下，计算该对象符合该模型的概率，对于高维数据的检验效果不佳；
基于邻近度的离群点检测：量化数据集之间的邻近度，把邻近度低的视为离群点，缺点是不适合大数据集，不能处理具有不同区域密度的数据集；
基于密度：定义一个密度值，一个对象的离群点得分是该对象周围密度的逆，缺点是大数据集不适用，参数选择也十分困难；
基于聚类：基于聚类技术来发现离群点可能是高度有效的，聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大；

鉴于数据挖掘中对于高维数据的大数据集的处理需要，以及各个离群点检测方法的优劣。这里我们重点讨论基于聚类的离群点检测。

基于聚类的离群点检测

聚类分析用于发现局部强相关的对象组，而异常检测用来发现不与其他对象强相关的对象。因此，聚类分析非常自然的可以用于离群点检测。这里介绍两种基于聚类的离群点检测方法：
1.丢弃远离其他簇的小簇：
一种利用聚类检测离群点的方法是丢弃远离其他簇的小簇。通常，该过程可以简化为丢弃小于某个最小阈值的所有簇。
这个方法可以与任何其它聚类技术一起使用，但是需要最小簇大小和小簇与其他簇之间距离的阈值。而且这种方案对簇个数的选择高度敏感，使用这个方案很难将离群点得分附加到对象上。

2.基于原型的聚类：

最低0.47元/天解锁文章

关注

9
点赞
踩
59

收藏

觉得还不错? 一键收藏
9
评论
基于聚类的离群点检测

在利用R软件进行数据挖掘时，离群点检测经常是必不可少的一部分。离群点检测的任务是发现与大部分其它对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声丢弃，然而在部分情况下，罕见的数据可能蕴含着更大的研究价值。离群点检测的方法很多，例如基于统计的离群点检测：在已知目标概率分布模型的前提下，计算该对象符合该模型的概率，对于高维数据的检验效果不佳；基于邻近度的离群点检测：量化数据集之间的
复制链接

扫一扫

专栏目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。