离群

离群点的学习

Waht?

异常对象别称为离群点。因为在数据散布图中,他们偏离其他数据点。
异常检测(数据预处理的部分)-----偏差挖掘(属性值偏离) or 例外挖掘

Why

数据来自不同类

异常对象来自于一个与大多数数据对象源(类)不同的源(类)的思想(Douglas Hawkins)

自然变异

如高斯模型,由于数据本身的概率随对象到分布中心距离的增加而急剧下降。

数据测量和收集误差

由于人的误差,测量设备的问题or存在噪声,测量被不正确的记录。

How

异常检测技术需要建立一个模型。异常是那些不能完美拟合的对象。(不服从分布,远离预测值)

基于的模型技术
许多数据检测技术首先会建立一个数据模型。异常是那些同模型不能完美拟合的对象。如果模型是簇的集合,则异常是不显著属于任何簇的对象。在使用回归模型时,异常是相对远离预测值的对象。
基于邻近度的技术
通常可以在对象之间定义邻近性度量。异常对象是那些远离大部分其他对象的对象。也称作基于距离的离群点检测技术。
基于密度的技术
对象的密度估计可以相对直接地计算。低密度区域的对象相对远离近邻,可能被看作异常。一种更复杂的方法考虑到数据集可能有不同密度区域,仅当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。

类标号的使用

异常检测的三个方法:非监督的、监督的、半监督的。(区别:类标号(异常和正常)可以利用的程度)
监督的检测
监督的异常检测要求存在异常类和正常类的训练集(多个)。
非监督的检测
在许多情况下没有提供类标号。对于成功的非监督检测而言,异常必须相互不同,与正常对象也不同在许多情况下没有提供类标号。对于成功的非监督检测而言,异常必须相互不同,与正常对象也不同
半监督的检测
有时,训练数据包含被标记的正常数据,但没有异常对象的信息。半监督目标是使用有标记的正常对象信息,对于给定对象的集合,发现异常标号或得分。

需要解决的问题

一、用于定义异常的属性个数 二、全局观点和局部观点 三、点的异常程度 四、一次性识别多个或者一个异常 五、有效性

异常检测方法的几个类型

一、基于统计
统计学方法是基于模型的方法,即为数据创建一个模型,并根据对象拟合模型情况来评估它们。
问题:1、识别数据集的具体分布(非标准分布的数据集) 2、使用的属性个数(不具有单属性) 3、混合分布
一元正态分布的离群点

在这里插入图片描述

多元正态分布的离群点
对于多元高斯分布,我们希望使用类似单变量高斯分布的方法。比如,如果点关于估计的数据分布具有低概率,我们将它分类为离群点。此外,我们希望用简单的检验,例如点到分布中心的距离来进行判定。但是,由于不同变量之间的相关性,多元正态分布并不关于中心对称。

在这里插入图片描述

混合模型方法
数据由两个分布的混合模型建模,一个分布为普通数据,另一个为离群点
优缺点
优点、有坚实的基础,建立在标准的统计学技术之上。当数据充分和所用的检验类型的知识时,这些检验很有效。
缺点、对于多元数据,可用选择少。对于高维数据,这些检验可能性能差。
二、基于距离的离群检验
k近邻算法
我们可以将基于邻近度的离群点看作是那些没有“足够多“邻居的对象。这里的邻居是用邻近度(距离)来定义的。最常用的距离是绝对距离(曼哈顿)和欧氏距离等等。
算法基本思想是:查找每个对象o在半径d范围内的邻居数,假设对于一个孤立点来说,在d领域内最多只能有M的邻居,那么对于一个对象x而言,如果发现了M+1邻居,那么x就不是一个孤立点。考虑算法的计算复杂度,需要进行优化,主要的算法有:基于索引( iDcex - baSec )的算法 ;循环一嵌套( DeStec - ioop , NL )算法 ;基于单元( ceII - based )的算法
优缺点
基于距离的方法一般需要o(m^2)时间,这对大型数据集可能代价较高。该方法对参数的选择也是敏感的。此外,因为它使用全局阈值,不能考虑这种密度的变化,所以它不能处理具有不同密度区域的数据集。一般情况下 ,在低维空间用距离来度量能效果较好,但在高维空间中效果并不好,如果将低维空间中基于距离问题的解决方法推广到高维空间,将会引起难以预料维度灾难问题 。

三、基于密度的离群点检验

基于密度
密度通常使用邻近度的定义。定义密度为到k个最近邻的平均距离的倒数。如果该距离小,则密度高。

在这里插入图片描述

基于相对密度
定义相对密度的方法
1、使用基于SNN密度的聚类算法使用的方法 2、用点x的密度与它的最近邻y的平均密度之比作为相对密度
一个对象的离群点得分由到它的k-最近邻的距离给定。离群点得分对k的取值高度敏感。如果k太小,则少量的邻近离群点可能导致较低的离群点得分;如果K太大,则点数少于k的簇中所有的对象可能都成了离群点。为了使该方案对于k的选取更具有鲁棒性,可以使用k个最近邻的平均距离。

在这里插入图片描述

优缺点
优、数据具有不同密度的区域能够很好的处理。缺、参数选择是困难的。虽然LOF算法通过观察不同的k值,然后取得最大离群点得分来处理该问题,但是,仍然需要选择这些值的上下界。
基于聚类
方法一 度量对象到簇原型的距离,并用它作为该对象的离群点得分。若簇有不同的密度 ,构造一种离群点得分,度量对象到簇原型的相对距离。方法二 若簇可以准确地用高斯分布建模,可以使用mahalanobis距离

对于具有目标函数的聚类

将离群点得分赋予对象,该得分反映删除该对象后目标函数的改进。

离群点对聚类的影响

一般方法:对象聚类、删除离群点、对象再聚类
其他方法:取一组不能很好拟合如何簇的特殊对象。这组对象代表潜在的离群点。随着聚类过程进展,簇在变化。不再强属于任何簇的对象被添加在潜在的离群点集合;若强属于一个簇,则从潜在离群点集合移除。聚类过程结束后仍留在该集合的对象被分类为离群点。

k均值等聚类技术并不能自动地确定簇的个数。

解决方法(1)对不同的簇个数重复该分析(2)找出大量小簇
①较小的簇趋向于更加凝聚
②若存在大量小簇时,一个对象是离群点,则其大概率为离群点

优缺点

有些聚类技术(如k均值)的时间和空间复杂度是线性或接近线性的,因而基于此算法的离群点技术可能是高度有效的。此外,簇的定义通常是离群点的补,因此可能同时发现簇和离群点。但,产生的离群点集和得分可能非常依赖所用的簇的个数和数据中离群点的存在性。聚类算法产生的簇的质量对该算法产生的离群点质量影响非常大。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值