10.1预备知识
10.1.1异常的成因
数据来源于不同的类
自然变异
数据测量和收集误差
10.1.2 异常检测方法
基于模型的技术:不能很好地拟合模型的对象,一般判别为异常
基于邻近度的技术:在对象之间定义邻近性度量,原理大部分对象的一般判别为异常
基于密度的技术:低密度区域中的对象相对远离近邻,被看作异常
10.1.3类标号的使用
异常检测有三种基本方法:非监督、监督、半监督,主要区别在于类标号的可利用程度。
监督的异常检测:存在异常类和正常类的训练集
非监督的异常检测:目标是将一个得分赋予每一个实例,反应该实例的异常程度
半监督的异常检测:使用有标记的正常对象的信息,对于给定的对象集合,发现异常标号
10.1.4 问题
用于定义异常的属性个数
全局观点与局部观点
点的异常程度
一次识别一个异常与多个异常
评估
有效性
10.2统计方法
统计学方法是基于模型的方法,即为数据创建一个模型,并根据对象拟合模型的情况来评估他们。
离群点检测方法面临的问题:
识别数据集的具体分布
使用的属性个数
混合分布
10.2.1检测一元正态分布中的离群点
10.2.2 多元正态分布的离群点
Mahalanobis距离:
10.2.3 异常检测的混合模型
初始时将所有对象放入普通对象集,而异常对象集为空,然后用一个迭代过程将对象从普通集转移到异常集,只要该转移能够提高数据的总似然。
10.3 基于邻近度的离群点检测
如果一个点远离大部分点,则可以判定这个对象是异常的。
到k最近邻的距离:一个对象的离群点得分由到它的k-最近邻的距离给定
10.4 基于密度的离群点检测
从基于密度的观点来说,离群点是在低密度区域中的对象。
基于密度的离群点:一个对象的离群点得分是该对象周围密度的逆
给定半径内的点计数:一个对象周围密度等于该对象指定距离d内对象的个数
10.5 基于聚类的计数
利用聚类检测离群点的方法是丢弃远离其他簇的小簇
基于聚类的离群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇