黄叶权 整理于 2007年6月23日
在统计学中,通俗的说法就是远离数据集中其他点的观测值,An outlier is an observation that lies outside the overall pattern of a distribution (Moore and McCabe 1999)。包含有离群点的数据集往往是不可靠的。例如,测量房间内的十个物体的温度,绝大多数都介于20-25℃之间,但烤炉的温度是350℃,这样的数据集的中位数可能是23℃,但均值可以达到55℃,在这种情况下,中位数相比于均值更能反映房间内的随机采样的温度[2]。
通常来说,离群点的发生总能说明一定的问题,或者是所假设的分布不适合所研究的对象,或者是所测的数据是完全错误的。
如果数据点的值高于第3个四分之一点或低于第1个四分之一点1.5IQR,则就可以判断其为Mild outliers [3]。若远离3IQR则就称作Extreme outliers,
离群点(outlier)定义为与相应的随机变量的平均值距离很远的点,这个距离由给定的阈值来测量,通常是标准差的整数倍[1]。
一个对离群点不敏感的估计器,我们称其具有很好的鲁棒性。
去除离群点是一个颇具争议的做法,尤其是在样本数目较少而样本的分布又未知的情况下。
用箱形图可以很好地描述离群点的分布情况:
离群点可以很好地刻画五个重要的点,如图1任意一个箱形图从上到下依次代表:第3个四分之一点以上1.5IQR点、第3个四分之一点、中位数、第1个四分之一点、第1个四分之一点以下1.5IQR点。
图2 给出了对于高斯分布的各个点的具体数值
图2正态分布及其箱形图
在文献[5]中给出了在Exel中创建箱形图的方法。
参考文献
[1] Sergios Theodoridis, Konstantinos Koutroumbas等著,李晶皎等译. 模式识别(第三版). 电子工业出版社,2006: 138-258
[2] http://en.wikipedia.org/wiki/Outlier
[3] http://mathworld.wolfram.com/Outlier.html