参考文献
[1]. 陶晶. 基于聚类和密度的离群点检测方法[D]. 华南理工大学, 2014.
[2].王雪英. 离群点预处理及检测算法研究[D]. 西南交通大学, 2009.
[3].胡婷婷. 数据挖掘中的离群点检测算法研究[D]. 厦门大学, 2014.
[4]. 谭(美). 数据挖掘导论[M]. 人民邮电出版社, 2007.
[5]. 百度文库PPT(点击此处可进入该PPT页面)
离群点检测
在大多数研究领域中,离群点也被称为异常值,在数据挖掘中,往往是要剔除掉这些数据,可是离群点的出现也是有一点的意义的。比如下图。该图是一个用户一年中的用水量情况,很明显的可以看出,有一天的数据是明显不正常的,该点是离群点。在我们研究他的用水规律时,该点是理当去除的。可是,它也提供给我们一个信息,在数据统计方式正确的情况下,那天的用水出现了不合理性(可能是用户忘记关水、水表异常等)。应当利用起这些异常。离群点的检测的意义也就存在了。
LOF算法
LOF算法(Local Outlier Factor,局部离群因子检测方法),是基于密度的离群点检测方法中一个比较有代表性的算法。该算法会给数据集中的每个点计算一个离群因子LOF,通过判断LOF是否接近于1来判定是否是离群因子。若LOF远大于1,则认为是离群因子,接近于1,则是正常点。为了叙述LOF算法,首先引入以下概念:
(1)对象p的k距离
对于正整数k,对象p的第k距离可记作k-distance(p)。在样本空间中,存在对象o,它与对象p之间的距离基座d(p,o)。如果满足以下两个条件,我们则认为k- distance(p)=d(p,o) :
1)在样本空间中,至少存在k个对象q,使得 d(p,q)<=d(d,o) ;
2)在样本空间中,至多存在k-1个对象q,使得 d(p,q)<d(p,o) 。
k−distance(p)=max|||p−o|||