[数据挖掘]离群点检测---基于kNN的离群点检测、LOF算法和CLOF算法

参考文献

[1]. 陶晶. 基于聚类和密度的离群点检测方法[D]. 华南理工大学, 2014.
[2].王雪英. 离群点预处理及检测算法研究[D]. 西南交通大学, 2009.
[3].胡婷婷. 数据挖掘中的离群点检测算法研究[D]. 厦门大学, 2014.
[4]. 谭(美). 数据挖掘导论[M]. 人民邮电出版社, 2007.
[5]. 百度文库PPT(点击此处可进入该PPT页面)

离群点检测

在大多数研究领域中,离群点也被称为异常值,在数据挖掘中,往往是要剔除掉这些数据,可是离群点的出现也是有一点的意义的。比如下图。该图是一个用户一年中的用水量情况,很明显的可以看出,有一天的数据是明显不正常的,该点是离群点。在我们研究他的用水规律时,该点是理当去除的。可是,它也提供给我们一个信息,在数据统计方式正确的情况下,那天的用水出现了不合理性(可能是用户忘记关水、水表异常等)。应当利用起这些异常。离群点的检测的意义也就存在了。
这里写图片描述

LOF算法

LOF算法(Local Outlier Factor,局部离群因子检测方法),是基于密度的离群点检测方法中一个比较有代表性的算法。该算法会给数据集中的每个点计算一个离群因子LOF,通过判断LOF是否接近于1来判定是否是离群因子。若LOF远大于1,则认为是离群因子,接近于1,则是正常点。为了叙述LOF算法,首先引入以下概念:

(1)对象p的k距离
对于正整数k,对象p的第k距离可记作k-distance(p)。在样本空间中,存在对象o,它与对象p之间的距离基座d(p,o)。如果满足以下两个条件,我们则认为k- distance(p)=d(p,o)
1)在样本空间中,至少存在k个对象q,使得 d(p,q)<=d(d,o)
2)在样本空间中,至多存在k-1个对象q,使得 d(p,q)<d(p,o)
kdistance(p)=max|||po|||

  • 15
    点赞
  • 132
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值