为什么样本方差除以n-1

最新推荐文章于 2022-01-17 10:49:59 发布

迷叶沙

最新推荐文章于 2022-01-17 10:49:59 发布

阅读量883

点赞数 1

分类专栏：补充内容文章标签：数学协方差

本文链接：https://blog.csdn.net/qq_40725653/article/details/120130716

版权

补充内容专栏收录该内容

5 篇文章

订阅专栏

最近和工作的师兄闲聊时，突然被问到当时学习PCA时计算协方差，其中计算样本方差时为什么除以n-1就是无偏估计了，为什么不是n。当时感觉不就是公式是这样吗？定义就这样啊。然后被建议回去再看看原理每个参数的概念，后来找了找，发现是自己对样本方差，总体方差等基础概念的不理解。
首先介绍几个基本概念：
$n$ ：样本数量
$\bar{x}$ ：样本的均值
$u$ ：总体真实均值
$\sigma^2$ ：真实样本方差
$S^2$ ：样本实际计算时方差

下面举一个栗子来描述下几个参数之间的关系。假设我们要统计全地球男性的平均身高，很显然要全部统计地球上男性的具体身高很不现实，我们可以从全球随机挑选一万名男性，来统计他们的具体身高。此时的该一万名男性的身高称为样本集，n=10000（样本数）。我们统计一万名男性身高再除以样本数可以得到样本的均值 $\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i$ ,而 $u$ 总体均值实际上会与 $\bar{x}$ 有所出入，因为毕竟一万名男性在全球男性中占比十分小。随着抽取样本的增加，二者之间的差距就会越小。同时还意味着 $\bar{x}$ 是一个带有偏差的估计， $u=\frac{1}{n}\sum_{i=1}^{n=全球男性}x_i$ （是一个无偏的真实估计，但是往往我们无法知道这个值）。 $\sigma^2=\frac{1}{n}\sum_{i=1}^n(x_i-u)^2$ 代表着样本男性身高的理论上的离散程度，而 $S^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2$ (如果按照真实方差计算时)代表着样本真实身高的离散程度。由于 $\bar{x}$ 本就就是一个有偏估计，因此以其为基础的 $S^2$ 也是一个有偏估计，与真正全球男性的身高离散情况还是有所出入。我们想消除这种估计偏差，那么我们应该如何做呢？下面的证明会给出相应的解答。

结论： $S^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2$
在这里插入图片描述

再代入看是否为无偏估计，也就是向σ 靠拢

在这里插入图片描述