ADJUSTED BOXPLOT: 偏态分布的异常检测

Boxplot是一个常用的了解数据分布的工具,在数据预处理阶段也常用boxplot剔除离群点,但是当数据是一个偏态分布的时候,boxplot将许多点误分类为离群点。《AN ADJUSTED BOXPLOT FOR SKEWED
DISTRIBUTIONS》是一篇经典的修正boxplot在偏态分布数据上的误报问题的文章。

1. 传统boxplot方法

对于一组数据 X n = { x 1 , x 2 , x 3 , . . . , x n } X_n=\{x_1,x_2,x_3,...,x_n\} Xn={ x1,x2,x3,...,xn},计算Q1(第一四分位数), Q3(第三四分位数), IQR(四分位距),然后得到Tukey bound:
[ Q 1 − 1.5 ∗ I Q R , Q 3 + 1.5 ∗ I Q R ] [Q_1-1.5*IQR, Q_3+1.5*IQR] [Q11.5IQR,Q3+1.5IQR]
boxplot 方法认为落在tukey bound外的数据为离群值。

缺点:该上下界是基于数据时对称分布得到的,当数据是偏态分布时tukey bound表现得并不好。

2. 通用的boxplot方法

medcouple

medcouple(MC)是一个健壮的,用于描述连续单变量分布(F)偏度的统计量:
M C ( F ) = m e d i a n x i < m F < x j h ( x i , x j ) MC(F)=\mathop{median}\limits_{x_i<m_F<x_j} h(x_i,x_j) MC(F)=xi<mF<xjmedianh(xi,xj)

m F m_F mF是F的中值, x i , x j x_i,x_j xi,xj是F中的样本,核函数h(x)定义如下:
h ( x i , x j ) = ( x j − m F ) − ( m F − x i ) x j − x i h(x_i,x_j)=\frac{(x_j-m_F)-(m_F-x_i)}{x_j-x_i} h(xi

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值