为什么样本方差除以n-1

最近和工作的师兄闲聊时,突然被问到当时学习PCA时计算协方差,其中计算样本方差时为什么除以n-1就是无偏估计了,为什么不是n。当时感觉不就是公式是这样吗?定义就这样啊。然后被建议回去再看看原理每个参数的概念,后来找了找,发现是自己对样本方差,总体方差等基础概念的不理解。
首先介绍几个基本概念:
n n n:样本数量
x ˉ \bar{x} xˉ:样本的均值
u u u:总体真实均值
σ 2 \sigma^2 σ2:真实样本方差
S 2 S^2 S2:样本实际计算时方差

下面举一个栗子来描述下几个参数之间的关系。假设我们要统计全地球男性的平均身高,很显然要全部统计地球上男性的具体身高很不现实,我们可以从全球随机挑选一万名男性,来统计他们的具体身高。此时的该一万名男性的身高称为样本集,n=10000(样本数)。我们统计一万名男性身高再除以样本数可以得到样本的均值 x ˉ = 1 n ∑ i = 1 n x i \bar{x}=\frac{1}{n}\sum_{i=1}^nx_i xˉ=n1i=1nxi,而 u u u总体均值实际上会与 x ˉ \bar{x} xˉ有所出入,因为毕竟一万名男性在全球男性中占比十分小。随着抽取样本的增加,二者之间的差距就会越小。同时还意味着 x ˉ \bar{x} xˉ是一个带有偏差的估计, u = 1 n ∑ i = 1 n = 全 球 男 性 x i u=\frac{1}{n}\sum_{i=1}^{n=全球男性}x_i u=n1i=1n=xi(是一个无偏的真实估计,但是往往我们无法知道这个值)。 σ 2 = 1 n ∑ i = 1 n ( x i − u ) 2 \sigma^2=\frac{1}{n}\sum_{i=1}^n(x_i-u)^2 σ2=n1i=1n(xiu)2代表着样本男性身高的理论上的离散程度,而 S 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 S^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2 S2=n1i=1n(xixˉ)2(如果按照真实方差计算时)代表着样本真实身高的离散程度。由于 x ˉ \bar{x} xˉ本就就是一个有偏估计,因此以其为基础的 S 2 S^2 S2也是一个有偏估计,与真正全球男性的身高离散情况还是有所出入。我们想消除这种估计偏差,那么我们应该如何做呢?下面的证明会给出相应的解答。

结论: S 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 S^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2 S2=n11i=1n(xixˉ)2
在这里插入图片描述

再代入看是否为无偏估计,也就是向σ 靠拢

在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值