在指数编制的过程中经常会遇到原始数据出现数据异常或者数据缺失情况,数据质量差往往是指数表达性差的一个主要原因,在编制指数的过程中不可避免的会遇到异常数据和数据缺失的情况。所以在固有原始数据的情况下,采用适当的方法处理这些异常值和缺失值,从而消除这些异常值和缺失值对指数结果的影响,使得指数结果更加稳定的接近市场真实状况。
一. 异常值检测方法介绍
异常值是指样本中出现的明显偏离大多数观测值的个别值。如果样本中出现异常值,会对一些常用的统计方法产生较大影响。在指数编制中需要检测并剔除异常数据,提高原始数据质量。
基于统计的方法是最早的异常点检测方法,其思想是给定数据集一个假设概率模型,并根据不一致性检验来确定数据异常情况。
1. 样本中位数法
若原始数据幂变换后经检验为正态或近似正态, 则可用正态总体假设下的异常值检验方法来剔除异常值。正态分布情形下异常值的检验方法, 采用基于总体参数的稳健估计量的检验方法:样本中位数法、样本分位数法。
设 x 1 , x 2 , … , x n x_1,x_2,…,x_n x1,x2,…,xn为取自N(μ, σ 2 σ^2 σ2)的样本, X(1)≤X(2)≤⋯≤X(n) 为其顺序统计量, med{
x i x_i xi}为样本中位数。构造异常值检验统计量(包括上侧、下侧、双侧3种情形), 当怀疑X(n) (或X(1))异常时, 计算上侧(或下侧)异常值检验统计量;当无法确定异常值出现在哪一侧时, 计算双侧异常值检验统计量;当由样本计算出的相应统计量的值大于临界值时, 则在相应的显著性水平下, 判定该极端值为异常值。
样本中位数法,上侧异常值检验统计量为:
T n = ( X ( n ) − m e d ( x i ) ) / m e d ∣ x i − m e d ( x i ) ∣ T_n=(X(n)-med({x_i}))/med|x_i-med({x_i})| Tn=(X(n)−med(xi))/med∣xi−med(xi)∣
下侧异常值检验统计量为:
T 1 = ( m e d ( x i ) − X ( 1 ) ) / m e d ∣ x i − m e d ( x i ) ∣ T_1=(med({x_i })-X(1))/med|x_i-med({x_i})| T1=(med(xi)−X(1))/med∣xi−med(xi)∣
双侧异常值检验统计量为:
D T n = m a x 1 ≤ i ≤ n ∣ X ( i ) − m e d ( x i ) ∣ / m e d ∣ x i − m e d ( x i ) ∣ D_{T_n}=max_{1≤i≤n}|X(i)-med(x_i)|/med|x_i-med(x_i)| DTn=max1≤i≤n∣X(i)−med(x

本文详细介绍了在指数编制过程中常见的异常值和缺失值处理方法,包括统计学方法如中位数法、分位数法、五数概括法、拉依达准则、格拉布斯准则、肖维勒准则、狄克逊准则,以及缺失值的填补策略,如均值填充、趋势填补、回归填补和极大似然估计。
最低0.47元/天 解锁文章
621

被折叠的 条评论
为什么被折叠?



