什么是离群点,离群点的来源,经典离群点挖掘算法及几种新兴的离群点挖掘算法

本文介绍了离群点的基本概念及其来源,包括异常行为、数据错误和内在变化等因素。接着详细阐述了几种经典离群点挖掘算法,如统计方法、基于邻近度、密度和聚类的检测。最后,讨论了新兴的离群点挖掘方法,如基于偏差、深度、小波变换和高斯核函数(GLOD)的算法,其中GLOD算法提高了离群点检测的精确性和效率。
摘要由CSDN通过智能技术生成

什么是离群点,离群点的来源

离群点:在数据集中偏离大部分数据的数据,使人怀疑这些数据 的偏离并非由随机因素产生,而是产生于完全不同的机制。与数 据集中其余部分不服从相同统计模型足够地不同于数据集中其余部分的数据,足够地不同于数据集中其余部分的数据。

离群点的来源:

  1. 客体的异常行为导致,如欺诈、入侵、不寻常的实验结果。
  2. 数据测量和收集误差、度量或执行错误所导致的。例如,一个人的年龄为-999可能是由于对年龄的默认设置所产生的。
  3. 数据变量内在特性引起。例如,顾客新的购买模式、基因突变等:一个公司的首席执行官的工资远远高于公司其他雇员的工资,也可成为一个离群点。

经典离群点挖掘算法

1.基于统计方法的离群点

即为数据创建一个模型,并且根据对象拟合模甩的 情况来评估它们。大部分用于离群点检测的统计学方法都基于构建一个概率 分布模型,并考虑对象有多大可能符合该模型。

优点与缺点
1)离群点检测的统计学方法具有坚实的基础,建立在标准的统计学技术(如分布参数的估计)之上。
2)当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效。
3)对于单个属性,存在各种统计离群点检测。
4)对于多元数据,可用的选择少一些,并且对于高维数据,这些检验可能性能很差。

2.基于邻近度的离群点检测

量化数据集之间的邻近度,把邻近度低的视为离群点。常用的模型为KNN(k近邻),如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。通常用来度量最相似程度的距离有欧式距离和曼哈顿距离。这种检测的缺陷是不适合大数据集,不能处理具有不同区域密度的数据集。

优点与缺点:与其他相关方案一样,基于邻近度的方法一般需要O(m2)时间。这对于大型数 据集可能代价过高,尽管在低维情况下可以使用专门的算法来提髙性能。该方法对参数的 选择也是敏感的。此外,它不能处理具有不同密度区域的数据集,因为它使用全局阈值, 不能考虑这种密度的变化。

3.基于密度的离群点检测

离群点是在低密度区域中的对象。基于密度的离群点一个对象的离群点得分是该对象 周围密度的逆

  • 1
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值