【数据挖掘笔记十二】离群点检测

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/fjssharpsword/article/details/79292004

 

12.离群点检测

离群点检测或异常检测,是找出其行为很不同于预期对象的过程。这种对象称为离群点或异常。离群点检测和聚类分析是两项高度相关的任务。聚类发现数据集中的多数模式并据此组织数据,而离群点检测则试图捕获显著偏离多数模式的异常情况。

12.1 离群点和离群点分析

离群点显著不同于其他对象。离群点类型包括全局离群点、情境离群点、集体离群点。离群点检测的挑战来自:正常对象和离群点的有效建模、针对应用的离群点检测、在离群点检测中处理噪声、可理解性。

12.2 离群点检测方法

如果得到专家标记的正常和离群点对象实例,可以建立离群点检测模型,包括监督方法、无监督方法、半监督方法。

离群点检测方法对离群点与其他数据做出假定,根据所做的假定,可以把离群点检测方法分为三类:统计学方法、基于邻近性的方法和基于聚类的方法。

12.3 统计学方法

离群点检测的统计学方法假定数据集中的正常对象由一个随机过程(生成模型)产生,因此,正常对象出现在该随机模型的高概率区域中,而低概率区域中的对象是离群点。

离群点检测的统计学方法一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为离群点。根据如何指定和如何学习模型,离群点检测的统计学方法可划分为两个主要类型:参数方法和非参数方法。

参数方法假定正常的对象呗一个以Θ为参数的参数分布产生,该参数分布的概率密度函数f(x,Θ)给出对象x被该分布产生的概率,该值越小,x越可能是离群点。

非参数方法并不假定先验统计模型,而是试图从输入数据确定模型。

参数方法包括:基于正态分布的一元离群点检测、多元离群点检测(马哈拉诺比斯距离)、使用混合参数分布。

非参数方法包括:直方图。

12.4 基于邻近性的方法

基于邻近性的方法假定:离群点对象与它最近邻的邻近性显著偏离数据集中其他对象与它们近邻之间的邻近性。

有两种方法:基于距离的和基于密度的。基于距离的考虑对象给定半径的邻域。基于密度的考察对象和它近邻的密度。CELL是一种基于距离的离群点检测的基于网格的方法。

12.5 基于聚类的方法

基于聚类的方法通过考察对象与簇之间的关系检测离群点。离群点是一个对象,属于小的偏远簇,或不属于任何簇。

12.6 基于分类的方法

基于分类的离群点检测方法的思想是,训练一个可以区分正常数据离群点的分类模型。

12.7 挖掘情境离群点和集体离群点

情境属性包括空间属性、时间、网络位置和复杂结构的属性。行为属性定义对象的特征,并用于估计对象在它所属的情境下是否是离群点。

一组数据对象形成一个集体离群点,如果这些对象作为一个整体显著地偏离整个数据集。尽管该组群中的每个对象可能并非离群点。

12.8 高维数据中的离群点检测

高维数据离群点检测面临离群点解释、数据稀疏性、数据子空间、维度可伸缩性的挑战。

扩充的传统离群点检测方法,使用传统的基于近邻性的离群点模型,为克服高维空间邻近性度量恶化问题,使用其他度量或构造子空间在其中检测离群点。

搜索各种子空间中的离群点的优点是,如果发现一个对象是很低维度的子空间中的离群点,则该子空间提供了重要信息,解释了对象为什么以及在何种程度上是离群点。

为高维离群点建立一个新模型,避免邻近性度量,而采用新的启发式方法来检测离群点。

12.9 小结

1)假定一个给定的统计过程用来产生数据对象集。离群点是显著偏离其余对象的数据对象,仿佛它是被不同的机制产生。

2)离群点的类型包括全局离群点、情境离群点、集体离群点。一个对象可能是多种类型的离群点。

3)全局离群点是最简单的离群点形式,并且最容易检测。情境离群点是关于对象的特定情境显著地偏离其他对象。数据对象是一个子集形成集体离群点,如果这些对象显著偏离整个数据集,尽管个体数据对象可能不是离群点。集体离群点检测需要背景信息来对对象之间联系建模,以便发现离群点的组群。

4)离群点检测的挑战包括发现合适的数据模型、离群点检测系统对应用的依赖性、找到区别离群点与噪声的方法、提供为什么对象呗识别为离群点的解释。

5)离群点检测方法可以根据用于分析的数据样本是否是专家提供的、可以用来建立离群点检测模型的标号来分类。在这种情况下,检测方法可以是监督的、无监督的、半监督的。或者,离群点检测方法可以根据它们对正常对象和离群点的假定来组织,这种类别包括统计学方法、基于邻近性的方法和基于聚类的方法。

6)统计学离群点检测方法或基于模型的方法,假定正常的数据对象遵守一个统计学模型,而不遵守该模型的数据被视为离群点。这种模型可以是参数的(假定数据被一个参数分布产生)和非参数的(由数据学习模型,而不是先验地假定一个)。多元数据的参数方法可以使用马哈拉诺比斯距离、x2统计量或多个参数模型的混合。直方图和核密度估计都是非参数模型的例子。

7)基于邻近性的离群点检测方法,假定一个对象是离群点,如果该对象与它最近邻的邻近性显著偏离相同数据集中大部分其他对象与它们最近邻的邻近性。基于距离的离群点检测方法考虑被半径定义的对象的邻域。一个对象是离群点,如果它的邻域没有足够多的其他点。在基于密度的离群点检测方法中,一个对象是离群点,如果它的密度比它的近邻相对低得多。

8)基于聚类的离群点检测方法,假定正常的数据对象属于大的、稠密的簇,而离群点属于小的或稀疏的簇,或不属于任何簇。

9)基于分类的离群点检测方法,使用一类模型,构建一个仅描述正常类的分类器,不属于正常类的任何样本都被视为离群点。

10)情境离群点和集体离群点检测探索数据中的结构。在情境离群点检测,结构是使用情境属性定义的情境。在集体离群点检测,结构是蕴涵的,并且作为挖掘过程的一部分来探索。为了检测这类离群点,一种方法是把该问题转换成传统的离群点检测问题,另一种方法直接对结构建模。

11)高维数据的离群点检测方法可以划分为三种主要方法,这些包括扩充的传统离群点检测、找出子空间中的离群点和对高维离群点建模。

展开阅读全文

没有更多推荐了,返回首页