目录
1 样本方差和总体方差
我们通常所说的方差有两种,一种是样本方差,一种是总体方差。当求样本方差的时候,分母是n-1;当求总体方差的时候,分母是n。在数理统计中,一般所求的都是样本方差,这就需要构造一个统计量样本方差S^2(注意这是一个随机变量),需要使构造的统计量的期望与总体方差相等,这样才能使统计量具有无偏性。
在小学数学,也可能是初中数学中才能遇到求总体方差的情形,比如,一个班50个人,每个人的数学成绩都知道,让你求平均数和方差。这时所说的方差就是总体方差了,这里不存在任何采样的问题,所以没有随机变量,也没有期望这个概念。
我们为什么要求样本方差呢?例如,在一个超大总体中,假如有一亿个数据,我想知道这个总体的方差是多少。去统计这一亿个数据是非常困难的,所以我们希望通过对总体抽取一万个样本,通过对样本方差的计算来估计出总体方差。这就需要我们来构造一个合适的统计量S^2来估计总体方差。
下面说一下为何求样本方差的时候要除以n-1。首先我们可能会问统计量S^2到底如何构造呢?其实可以任意构造,但是你构造的统计量不一定能很好的估计总体中的未知参数。判断构造的统计量的好坏有三个标准:无偏性、有效性和相合性(这里我们只谈无偏性)。
无偏性,是指对未知参数构造的统计量,该统计量的期望等于要估计的参数。
2 问题描述
问题完整的描述如下:
如果已知随机变量的期望为
,那么可以如下计算方差
,
上面的式子需要知道的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。所以实践中常常采样之后,用下面这个
来近似
:
其实现实中,往往连的期望
也不清楚,只知道样本的均值:
那么可以这么来计算:
那这里就有两个问题了:
- 为什么可以用
来近似
?
- 为什么使用
替代
之后,分母是
?
3 为什么可以用
来近似
?
举个例子,假设服从这么一个正态分布:
即,,图形如下:
当然,现实中往往并不清楚服从的分布是什么,具体参数又是什么?所以我用虚线来表明我们并不是真正知道
的分布:
很幸运的,我们知道,因此对
采样,并通过:
来估计,某次采样计算出来的
:
看起来比要小。采样具有随机性,我们多采样几次,
会围绕
上下波动:
用作为
的一个估计量,算是可以接受的选择。
很容易算出:
因此,根据中心极限定理,的采样均值会服从
的正态分布:
这也就是所谓的无偏估计量。从这个分布来看,选择作为估计量确实可以接受。
4 为什么使用
替代
之后,分母是1/(n-1)
更多的情况,我们不知道是多少的,只能计算出
。不同的采样对应不同的
:
对于某次采样而言,当时,下式取得最小值:
我们也是比较容易从图像中观察出这一点,只要偏离
,该值就会增大:
所以可知:
可推出:
进而推出:
如果用下面这个式子来估计:
那么采样均值会服从一个偏离
的正态分布:
可见,此分布倾向于低估。
用公式来解释:
也就是说,除非否则一定会有
<=
。
具体小了多少,我们可以使用两种方法来计算,计算之前需要先了解的公式:
1.方差计算公式:
2. 均值的均值、方差计算公式:
方法一:
其中:
方法二:
因为:
所以有:
所以:
也就是说,低估了,进行一下调整:
因此使用下面这个式子进行估计,得到的就是无偏估计: