基于聚类的离群点检测

在利用R软件进行数据挖掘时,离群点检测经常是必不可少的一部分。离群点检测的任务是发现与大部分其它对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声丢弃,然而在部分情况下,罕见的数据可能蕴含着更大的研究价值。

离群点检测的方法很多,例如:
基于统计的离群点检测:在已知目标概率分布模型的前提下,计算该对象符合该模型的概率,对于高维数据的检验效果不佳;
基于邻近度的离群点检测:量化数据集之间的邻近度,把邻近度低的视为离群点,缺点是不适合大数据集,不能处理具有不同区域密度的数据集;
基于密度:定义一个密度值,一个对象的离群点得分是该对象周围密度的逆,缺点是大数据集不适用,参数选择也十分困难;
基于聚类:基于聚类技术来发现离群点可能是高度有效的,聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大;

鉴于数据挖掘中对于高维数据的大数据集的处理需要,以及各个离群点检测方法的优劣。这里我们重点讨论基于聚类的离群点检测。

基于聚类的离群点检测

聚类分析用于发现局部强相关的对象组,而异常检测用来发现不与其他对象强相关的对象。因此,聚类分析非常自然的可以用于离群点检测。这里介绍两种基于聚类的离群点检测方法:
1.丢弃远离其他簇的小簇:
一种利用聚类检测离群点的方法是丢弃远离其他簇的小簇。通常,该过程可以简化为丢弃小于某个最小阈值的所有簇。
这个方法可以与任何其它聚类技术一起使用,但是需要最小簇大小和小簇与其他簇之间距离的阈值。而且这种方案对簇个数的选择高度敏感,使用这个方案很难将离群点得分附加到对象上。

2.基于原型的聚类:

  • 9
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值