离群点检测方法_密度聚类算法——离群点检测

离群点检测

1 离群点检测基本知识

离群点检测是数据挖掘中的一项重要内容,Hawkins最早给出了异常点离群点或孤立点的本质性定义异常点如此不同于数据集中的其它数据,以致于使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。离群点产生的原因可能多种多样,比如由于度量或执行错误产生的,或者由于固有数据变异产生的,或其它原因。检测离群点可以提高聚类精度。离群点检测的基本思想是从给定的包含个数据对象的数据集中发现与其他数据相比具有显著不同的数据。离群点检测算法大致分为基于统计的方法、基于距离的方法、基于密度的方法与基于偏离的方法。检测算法主要有两个过程,即离群点定义与离群点挖掘。虽然离群点检测只是为了发现数据集中少部分异常数据,但是对于人们发现有价值的知识很有意义。离群点检测方法可以分为以下几类。

(1)基于统计的离群点检测。基于统计分布的离群点检测方法是通过对小概率事件的判别来实现离群点的检测。其基本思想是通过对给定的数据集假设一个分布或概率模型,然后根据假设的模型通过不一致性测试来识别离群点。这种方法简便易行,但该方法在很大程度上依赖于待挖掘的数据集是否满足某种概率分布模型,而这个假设模型的参数、离群点的数目等是需要很多先验知识来确定的。此外,这种方法大多只适合于挖掘单变量的数值型数据。

(2)基于距离的离群点检测。基于距离的离群点检测方法把数据集看作高维空间,把数据看作高维空间中的点,定义离群点为与数据集中大多数点之间的距离大于某个阂值的点。基于距离的离群点检测算法有种基于索引的算法、基于单元的算法、嵌套一循环算法。基于索引的算法具有良好的可伸缩性,但是算法依赖索引结构的性能,维数的增加使得索引结构的性能下降。基于单元的离群点检测是将数据集划分为多个单元,化对象检测为单元检测。该算法具有很好的可伸缩性和可扩展性,但是需要将数据空间分隔成独立的单元结构,参数的每个变化都需要调整单元结构。嵌套一循环算法可以避免构建索引结构,并使最小化。基于距离的方法不必假设数据集的分布模型、数据特点等,克服了基于统计方法仅能检测单个属性,以及对先验知识需求很多的特点。

(3)基于密度的离群

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值