数学直觉是非常重要的。
很多人从公式证明了样本方差必然小于整体方差,却没有从数学直觉上进行解释,结果是懂的人还是懂,不懂的人仍然不懂,还有人不懂装懂。
样本方差需要较正的原因在于,采样过程并非无bias, 采样过程本身也服从整体的分布。
如果总体服从如下所示的标准正态分布,标准正态分布
当我取样时,越靠近均值的个体,越容易被采样到,越边缘的个体越容易被忽略,于是采样不能还原总体的分布,而是强化了原来的分布。
只要采样数小于个体数,采样本身就会引入分布的误差,因此需要进行较正。
采样带来的误差就是原来分布的强化,是可以计算的,n/(n-1)的修正并非随便给的。Prove that $E (\overline{X} - \mu)^2 = \frac{1}{n}\sigma^2$math.stackexchange.com
更新:
有知友问:一个已知均值、未知方差的正态分布,想要通过采样估计其方差,在这种情况下,样本方差就是总体方差的无偏估计。
我用python 实验了一下,实践出真知:
import numpy as np
import random
x = np.random.normal(0, 1, size=100)
x_simple = random.sample(x.tolist(),50)
arr_var = np.var(x)
sample_var = np.var(x_simple)
arr_var, sample_var
(0.8752432289589612, 0.8330718479747615)
总体是均值为0,方差为1的100个正态分部点,
随机采样50个点之后,样本方差小于总体方差,且
arr_var / sample_var ≈ 50 / 49
可见样本方差仍然需要修正,与是否知晓总体均值没有关系。
样本方差的偏差发生在采样过程之中!