最近和工作的师兄闲聊时,突然被问到当时学习PCA时计算协方差,其中计算样本方差时为什么除以n-1就是无偏估计了,为什么不是n。当时感觉不就是公式是这样吗?定义就这样啊。然后被建议回去再看看原理每个参数的概念,后来找了找,发现是自己对样本方差,总体方差等基础概念的不理解。
首先介绍几个基本概念:
n
n
n:样本数量
x
ˉ
\bar{x}
xˉ:样本的均值
u
u
u:总体真实均值
σ
2
\sigma^2
σ2:真实样本方差
S
2
S^2
S2:样本实际计算时方差
下面举一个栗子来描述下几个参数之间的关系。假设我们要统计全地球男性的平均身高,很显然要全部统计地球上男性的具体身高很不现实,我们可以从全球随机挑选一万名男性,来统计他们的具体身高。此时的该一万名男性的身高称为样本集,n=10000(样本数)。我们统计一万名男性身高再除以样本数可以得到样本的均值 x ˉ = 1 n ∑ i = 1 n x i \bar{x}=\frac{1}{n}\sum_{i=1}^nx_i xˉ=n1∑i=1nxi,而 u u u总体均值实际上会与 x ˉ \bar{x} xˉ有所出入,因为毕竟一万名男性在全球男性中占比十分小。随着抽取样本的增加,二者之间的差距就会越小。同时还意味着 x ˉ \bar{x} xˉ是一个带有偏差的估计, u = 1 n ∑ i = 1 n = 全 球 男 性 x i u=\frac{1}{n}\sum_{i=1}^{n=全球男性}x_i u=n1∑i=1n=全球男性xi(是一个无偏的真实估计,但是往往我们无法知道这个值)。 σ 2 = 1 n ∑ i = 1 n ( x i − u ) 2 \sigma^2=\frac{1}{n}\sum_{i=1}^n(x_i-u)^2 σ2=n1∑i=1n(xi−u)2代表着样本男性身高的理论上的离散程度,而 S 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 S^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2 S2=n1∑i=1n(xi−xˉ)2(如果按照真实方差计算时)代表着样本真实身高的离散程度。由于 x ˉ \bar{x} xˉ本就就是一个有偏估计,因此以其为基础的 S 2 S^2 S2也是一个有偏估计,与真正全球男性的身高离散情况还是有所出入。我们想消除这种估计偏差,那么我们应该如何做呢?下面的证明会给出相应的解答。
结论:
S
2
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
S^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2
S2=n−11∑i=1n(xi−xˉ)2
再代入看是否为无偏估计,也就是向σ 靠拢