ADJUSTED BOXPLOT: 偏态分布的异常检测

Eaton18

已于 2022-12-02 17:27:26 修改

阅读量3.6k

点赞数 5

分类专栏： AIOps 机器学习文章标签：异常检测偏态分布 boxplot medcouple

于 2020-06-01 23:42:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Eaton18/article/details/106484481

版权

Boxplot是一个常用的了解数据分布的工具，在数据预处理阶段也常用boxplot剔除离群点，但是当数据是一个偏态分布的时候，boxplot将许多点误分类为离群点。《AN ADJUSTED BOXPLOT FOR SKEWED
DISTRIBUTIONS》是一篇经典的修正boxplot在偏态分布数据上的误报问题的文章。

1. 传统boxplot方法

对于一组数据 $X_n=\{x_1,x_2,x_3,...,x_n\}$ ，计算Q1(第一四分位数), Q3(第三四分位数), IQR(四分位距)，然后得到Tukey bound：
$Q_1-1.5*IQR, Q_3+1.5*IQR]$
boxplot 方法认为落在tukey bound外的数据为离群值。

缺点：该上下界是基于数据时对称分布得到的，当数据是偏态分布时tukey bound表现得并不好。

2. 通用的boxplot方法

medcouple

medcouple(MC)是一个健壮的，用于描述连续单变量分布(F)偏度的统计量：
$MC(F)=\mathop{median}\limits_{x_i<m_F<x_j} h(x_i,x_j)$

$m_F$ 是F的中值， $x_i,x_j$ 是F中的样本，核函数h(x)定义如下：
$h(x_i,x_j)=\frac{(x_j-m_F)-(m_F-x_i)}{x_j-x_i}$

最低0.47元/天解锁文章

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。