在统计分析中,离群值(outlier),也称逸出值,是指在数据中有一个或几个数值与其他数值相比差异较大。处理离群值的时候要结合专业知识,判断是否属于逻辑错误。本文仅介绍在统计学上常用的Tukey法。
Tukey法方法通过计算参考值的25%分位数(Q1)、75%分位数(Q3)和四分位间距IQR(Q3-Q1),将分布在Q1-1.5×(IQR)至Q3+1.5×(IQR)之间的参考值定义为可接受数值,否则即为离群值(如下图所示)。当数据满足正态分布时,预计识别0.7%的数值为离群值。
在剔除离群值之前,首先分析各项指标检测值是否服从正态分布,如果服从正态分布,直接采用Tukey法进行离群值查找。如果不服从正态分布,则需要采用Box-Cox法进行数据变换,使其服从正态分布,Box-Cox变换的公式如下所示:
其中X为原始值,y为Box-Cox变换后的值;λ和c为最大似然估计的参数。
笔者将boxcox变换、tukey方法实施、数据前后箱型图检测打包为如下函数:
tukey<-function