样本方差为什么除以(n-1)

小林up

于 2022-06-21 10:56:24 发布

阅读量295

点赞数 1

分类专栏： # 概率论文章标签：概率论数学样本方差证明总体方差和样本方差

本文链接：https://blog.csdn.net/subtitle_/article/details/125385814

版权

概率论专栏收录该内容

12 篇文章 6 订阅

订阅专栏

引言

学概率论和数理统计当时有个问题：样本方差为什么除以(n-1)，当时学习的时候不是很理解，然而问老师老师也讲不出所以然（感觉老师好水呃…），于是自己找资料学习一下吧。整理如下。

引言

1.前置知识

之前学过概率论和数理统计的小伙伴肯定也知道下面的公式：

1.如果均值（期望） $\mathbf{E}(x)=\mu$ ，方差 $\mathbf{D}(x)=\sigma^2$ ，那么 $\mathbf{E}(\overline{x})=\mu$ ， $\mathbf{D}(\overline{x})=\sigma^2/n$

2.注意总体方差 $\sigma^2$ 和样本方差 $S^2$ 的公式是不一样的，首先分母一个是除以n，一个是除以(n-1)，其次平方和内部一个减去的是总体均值 $\mu$ ，一个减去的是样本均值 $\overline{x}$ ，也即。
$\sigma^2=\frac{\sum_{i=1}^{n}(x_i-\mu)^2}{n},S^2=\frac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}$

3. $\sum_{1=1}^k(x_i-\overline{x})=0$

2.证明思路

其实样本方差 $S^2$ 本质上是总体均值 $\mu$ 或总体方差 $\sigma^2$ 的一个点估计，是一个随机变量，而良好的点估计有两点最重要的性质：

（1）点估计是无偏的，点估计的期望值应该是被估计的参数，但仅满足这一点不够，因为点估计的形式可能有很多，所以还有第2条。

（2）无偏估计量有最小方差，最小方差点估计的方差比参数的任何一个其他估计量的方差都小。

下面证明 $S^2$ 是 $\sigma^2$ 的无偏估计量。即证明点估计的期望值应该是被估计的总体参数。

3.证明过程

总结了一下有下面的两种证明方法：其中第一种是书上常见给出的，第二种更好进行理解。

证明方法1： $\begin{aligned}\mathbf{E}({S^2})&=\mathbf{E}(\frac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1})\\&=\frac{1}{n-1}\mathbf{E}[\sum_{i=1}^{n}(x_i-\overline{x})^2]\\&=\frac{1}{n-1}\mathbf{E}[\sum_{i=1}^{n}x_i^2-n\overline{x}^2]\\&=\frac{1}{n-1}[\sum_{i=1}^n(\mu^2+\sigma^2)-n(\mu^2+\frac{\sigma^2}{n})]\\&=\frac{1}{n-1}(n-1)\sigma^2\\&=\sigma^2\end{aligned}$
证明方法2：
假设 $t$ 是一个常数： $\begin{aligned}\sum_{i=1}^{n}(x_i-t)^2&=\sum_{i=1}^{n}(x_i-\overline{x}+\overline{x}-t)^2\\&=\sum_{i=1}^{n}(x_i-\overline{x})^2+2\sum_{i=1}^{n}(x_i-\overline{x})(\overline{x}-t)+\sum_{i=1}^{n}(\overline{x}-t)^2\\&=\sum_{i=1}^{n}(x_i-\overline{x})^2+2(\overline{x}-t)\sum_{i=1}^{n}(x_i-\overline{x})+\sum_{i=1}^{n}(\overline{x}-t)^2\\&=\sum_{i=1}^{n}(x_i-\overline{x})^2+\sum_{i=1}^{n}(\overline{x}-t)^2\\&=\sum_{i=1}^{n}(x_i-\overline{x})^2+n(\overline{x}-t)^2\end{aligned}$
令式中的 $t$ 为总体均值 $\mu$ ，则有 $\begin{aligned}\sum_{i=1}^{n}(x_i-\overline{x})^2=\sum_{i=1}^{n}(\overline{x}-\mu)^2-n(\overline{x}-\mu)^2\end{aligned}$
可以看到 $\sum_{i=1}^{n}(x_i-\overline{x})^2$ 和 $\sum_{i=1}^{n}(\overline{x}-\mu)^2$ 之间不是严格相等的，还相差一个 $n(\overline{x}-\mu)^2$ 。则 $\begin{aligned}\mathbf{E}({S^2})&=\mathbf{E}(\frac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1})\\&=\frac{1}{n-1}\mathbf{E}[\sum_{i=1}^{n}(x_i-\overline{x})^2]\\&=\frac{1}{n-1}\mathbf{E}[\sum_{i=1}^{n}(\left(\overline{x}-\mu)^2-n(\overline{x}-\mu)^2\right)]\\&=\frac{1}{n-1}[\mathbf{E}\left(\sum_{i=1}^{n}(\overline{x}-\mu)^2\right)-\mathbf{E}\left(\sum_{i=1}^{n}n(\overline{x}-\mu)^2\right)]\\&=\frac{1}{n-1}[\mathbf{E}\left(\sum_{i=1}^{n}(\overline{x}-\mu)^2\right)-n\mathbf{E}\left(\sum_{i=1}^{n}(\overline{x}-\mu)^2\right)]\\&=\frac{1}{n-1}(n\sigma^2-n\cdot\frac{\sigma^2}{n})\\&=\sigma^2\end{aligned}$