离群点检测常用方法

最新推荐文章于 2024-05-10 17:24:31 发布

罗辑罗辑

最新推荐文章于 2024-05-10 17:24:31 发布

阅读量2.7k

点赞数

分类专栏：离群点检测文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jinhualun911/article/details/108414118

版权

离群点检测专栏收录该内容

10 篇文章 7 订阅

订阅专栏

离群点检测常用方法

一、基于统计的方法

统计学方法是基于模型的方法，其首先给待检测数据集预设一个模型，然后将数据集中对象与预设模型的拟合程度来检测数据集中的离群点。基于统计学的离群点检测方法大多都基于构建一个概率分布模型，并考虑数据集中对象与该概率分布模型相符合的程度。

定义1.基于统计学方法的离群点定义

离群点是一个对象，关于数据的概率分布模型，它具有低概率。

概率分布模型通过估计用户指定的分布参数，由数据创建。例如如果某数据分布满足高斯分布或者泊松分布，则其基本分布的均值和标准差均可以通过计算数据的均值和标准差来估计。然后可以估计每个对象在该分布下的概率。在统计学术语中，离群点又被称为“不和谐的观测值（discordant observation）”

基于统计学的离群点检测方法的主要问题在于：虽然许多类型的数据都可以用诸如高斯分布、泊松分布或二项式分布等描述，但是不满足常见分布的数据集也很多。如果针对待检测数据集建立了错误的预分布模型，则很可能将数据集中的正常对象误判为离群点。例如数据有可能来自于满足高斯分布的模型，但却错误的将其建模为另一种分布，使得其相比于高斯分布更远的偏离与均值。这类行为的统计分布在实践中常被称为重尾分布（heavy-tailed distribution）。

大部分基于统计学的离群点检测算法都使用单个属性，但是目前已经有了混合分布的检测方法。基于混合分布的检测方法对数据建模，虽然可能功能更加强大，但这种混合分布的模型更加复杂，较难理解和使用。

1.1 一元正态分布中的离群点检测

高斯分布或者称正态分布是统计学中最为常见的一种分布，用N（ $\mu$ ， $\sigma$ ）表示高斯分布，其中 $\mu$ 表示均值， $\sigma$ 表示方差。

如图所示为均值为0，标准差为1的概率密度函数。如果数据集满足该模型分布，那么该数据集中的绝大多数数据点将聚集在（-3,3）之间，而落在这区间之外的数据对象个数很少，概率仅有0.0027。用形式化语言描述如下：

如果c是常数，x表示数据集中的属性值，则||x||>=c的概率随着c增大而迅速减小。设 $\alpha$ =probability(|x|>=c)，

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
离群点检测常用方法

离群点检测常用方法一、基于统计的方法统计学方法是基于模型的方法，其首先给待检测数据集预设一个模型，然后将数据集中对象与预设模型的拟合程度来检测数据集中的离群点。基于统计学的离群点检测方法大多都基于构建一个概率分布模型，并考虑数据集中对象与该概率分布模型相符合的程度。定义1.基于统计学方法的离群点定义离群点是一个对象，关于数据的概率分布模型，它具有低概率。概率分布模型通过估计用户指定的分布参数，由数据创建。例如如果某数据分布满足高斯分布或者泊松分布，则其基本分布的均值和标准差均可以通过计算
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。