样本标准差分母为什么是n-1

本文探讨了在统计学中,如何处理样本方差和标准差与总体方差和标准差之间的偏差问题。当从总体中抽取样本时,样本的方差通常小于总体方差。为了解决这个问题,我们使用n-1而不是n来修正样本方差,这被称为无偏估计。通过数学推导证明,除以n-1的样本方差期望值等于总体方差,从而提供了一个更准确的总体特征预测。
摘要由CSDN通过智能技术生成

当我们对数据总体进行统计时,由于每一个数据都被使用到,所以计算得到的标准差和方差是能够准确体现整个数据集特征的。而当从总体中提取出某个样本时,该样本当中的数据在一定程度上会集中在某个范围之中,由此计算出来的标准差和方差不能准确体现出数据总体的情况,通常来说得到的结果会比总体的要小。

举一个例子,如果一个数据集满足高斯分布(Normal Distribution),那当我们提取样本的时候,数据基本上会集中在中间的部分,而边缘值的数目可能会比较少,所以最后得到的样本方差和样本标准差会比总体要小。

为了修正这个偏差,在计算样本的方差和标准差时,我们将使用 n-1 代替 n。这样处理后最直接的结果是,公式中的分母变小,得到的结果将会变大,能够更加准确地通过该样本预测总体的情况。

对于一个随机变量X进行n次抽样,获得样本x_1,x_2,x_3,\dots,x_n,那么样本均值为
\overline x = \frac{1}{n} \sum_{i=1}^n x_i

有偏样本方差为:

s_n^2 = \frac{1}{n} \sum_{i=1}^n (x_i-\overline x)^2
无偏样本方差为:
s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\overline x)^2

先声明一下期望的两个重要属性:

E(\sum X_i) = \sum E(X_i)

E(cX_i) = cE(X_i)

定义一个公式:

V(X) = E(X^2) - [E(X)]^2
那么:
E(X^2) = V(X) + [E(X)]^2

设:
E(X^2) = \sigma^2 + \mu^2
对于证明,我还需要样本平均值平方的期望值:

E(\overline X^2) = V(\overline X) + [E(\overline X)]^2

在继续之前,我可以找到平均值的期望值和平均值的方差的表达式:
E(\overline X) = E(\frac{X_1+X_2+\dots+X_n}{n})

期望值运算符是线性的:

E(cX_i) = cE(X_i) E(\overline X) = (\frac{1}{n})(\mu+\mu+\dots+\mu) E(\overline X) = (\frac{1}{n})n \times\mu E(\overline X) = \mu

同理:

V(\overline X) = V(\frac{X_1+X_2+\dots+X_n}{n})

V(cX_i) = c^2V(X_i) V(\overline X)= (\frac{1}{n})^2(\sigma^2+\sigma^2+\dots+\sigma^2)

V(\overline X) =(\frac{1}{n})^2 \times \sigma^2

V(\overline X) = \frac{\sigma^2}{n}

那么:
E(\overline X^2) = V(\overline X) + [E(\overline X)]^2

E(\overline X^2) = \frac{\sigma^2}{n} + \mu^2

又:

E[\sum(X_i-\overline X)^2]

= E[\sum(X_i^2-2X_i\overline X + \overline X^2)]

= E[\sum X_i^2 - \sum 2X_i\overline X +\sum \overline X^2]

=E[\sum X_i^2 - 2\overline X n \overline X + n \overline X^2]

\because \overline X = \frac{\sum X_i}{n} \therefore \sum X_i = n \times \overline X

E[\sum X_i^2 - 2\overline X n \overline X + n \overline X^2]

= E[\sum X_i^2 - 2 n \overline X^2 + n \overline X^2]

= E[\sum X_i^2 - n \overline X^2]

= E(\sum X_i^2) - E(n \overline X^2)

= E(\sum X_i^2) - nE(\overline X^2)

前面已经得到:

E(X^2) = \sigma^2 + \mu^2 E(\overline X^2)

= \frac{\sigma^2}{n} + \mu^2 E[\sum(X_i-\overline X)^2]

= E(\sum X_i^2) - nE(\overline X^2)

=\sum(\sigma^2 + \mu^2) - n(\frac{\sigma^2}{n}+\mu^2)

=n\sigma^2 + n\mu^2 - \sigma^2 - n\mu^2

=n\sigma^2 - \sigma^2 =(n-1)\sigma^2

我们知道:

E(S^2) = E[\frac{\sum_{i=1}^n(X_i-\overline X)^2}{n-1}] =\sigma^2

我使用前面的结果表明,除以n-1可以提供无偏估计:

E(S^2) = E[\frac{\sum_{i=1}^n(X_i-\overline X)^2}{n-1}]

E(S^2) = \frac{1}{n-1}E[\sum_{i=1}^n(X_i-\overline X)^2]

E(S^2) = \frac{1}{n-1}(n-1)\sigma^2

E(S^2) = \sigma^2

样本方差的期望值等于无偏估计的总体方差。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值