抽样分布:
现在,假设将抽取n个样本组成一个简单随机样本的过程重复进行下去,每次都计算
x¯
和
p¯
的值。
在不同的简单随机样本中,这些样本统计量的值有各种可能的结果,它们是随机变量。是随机变量就能得到其概率分布,我们称这些随机变量的概率分布为它们的抽样分布。
这一节,我们先来看看样本均值
x¯
的抽样分布。
和其他概率分布一样,
x¯
的抽样分布也有期望、标准差以及形态特征。
x¯ 的数学期望:
E(x¯)=μ , E(x¯) 为 x¯ 的期望, μ 为总体均值。
x¯ 的标准差:
x¯
的标准差公式与总体是否有限有关。
有限总体下:
σx¯=N−nN−1‾‾‾‾√⋅(σn√)
无限总体下:
σx¯=σn√
式中的
N−nN−1‾‾‾‾√
称为有限总体修正系数。在很多实际抽样中,总体的容量很大,样本容量相对很小,修正系数
N−nN−1‾‾‾‾√
趋近于1,有限总体和无限总体
x¯
的标准差计算之间的差别可以忽略,我们可以用通式
σx¯=σn√
计算样本均值的标准差。那具体是总体容量大到什么程度,样本容量小到什么程度,两条公式间的差别才可以忽略呢?我们约定,当
nN⩽0.05
,即样本容量不超过总体容量的5%时,两者间误差可忽略。
另外,为强调
σx¯
和总体标准差
σ
的不同(
σx¯
是总体的简单随机样本的均值的抽样分布的标准差),我们称
σx¯
为均值
x¯
的标准误差。
x¯ 的抽样分布的形态
考虑以下两种情形:总体服从正态分布、总体不服从正态分布。
总体服从正态分布时,任何样本容量下
x¯
的抽样分布都是正态分布;
总体不服从正态分布时,我们引入中心极限定理:
从总体中抽取容量为n的简单随机样本,当样本容量很大时,样本均值 x¯ 的抽样分布近似服从抽样分布。
下图给出了样本容量分别为 n=2 、 n=5 和 n=30 时抽样分布的形状:
可以看到,随着样本容量的增加,抽样分布的形态逐渐趋近于正态分布。
在一般统计实践中,对大多数应用,假定样本容量超过或等于30时,
x¯
的抽样分布可用正态分布近似;当总体严重偏态或出现异常点时,可能需要样本容量达到50;当总体为离散型时,正态近似中所需样本容量一般依赖于总体的比率。