总体方差与样本方差:
样本方差与总体方差计算差别在于分母是样本数n-1。很多的解释关于自由度:自由度,这里暂集中理清楚总体方差和总体样本的关系,先不扯自由度。
关于样本方差的推导,如果我们认为方差样本形如总体样本:
因为
所以(1)式中第二项和第三项减去后
原式
然后第一项在中心极限中就是总体方差的无偏估计,而第二项当等于0时,全式就是总体方差了。但是很可惜,因为这个平方导致这个数的期望大于0。这意味着,如果能够事先预知总体样本,然后代入公式后,就不用再除以1/(n+1)而是1/n了。
所以我们知道现在为什么是有偏估计了,如果还不理解,我们可以通过图来理解理解。
现在有总体包含X1,X2,X3,第一条坐标系是指总体样本以及总体均值。后三条分别为样本及样本均值。
![8653af128f8def3a5eaab4cf9cf96605.png](https://i-blog.csdnimg.cn/blog_migrate/f09211673411a18110c2c2ff63282810.png)
正常来说,抽样取出来的样本均值的期望就是总体期望,但是每一次得到的样本均值其实是最优点。当我们在X1和X3中选一个点P使(X1-P)^2+(X3-P)^2最小,毫无疑问就是平均值。因此每一次抽样的时候得到的都是最优点,以至于得到的样本方差的期望小于总体方差。
那1/(n-1)是怎么来的,假设我们不知道样本方差和我们希望估算出的总体方差之间的关系,我们希望样本方差的期望等于总体方差,也就是:
因为x的平均数是由x求出的,所以x平均数的期望必然等于x的期望,所以式中和的平方项消去。所以原式变为:
因为
所以
至此通过一步一步的推导我们可以看出一个问题:无偏估计还是会存在误差,只是通过在中心极限定理下会趋于最终值。所以在取样时保证最小样本量对整体估计的准确性才是最有帮助的。