总体方差和样本方差

我们知道,统计学上方差的计算公式如下:
σ 2 = ∑ i = 1 n ( x i − μ ) n \sigma^2=\frac{\sum_{i=1}^{n}(x_i-\mu)}{n} σ2=ni=1n(xiμ)
这是统计学中方差的定义,已知条件有总体的均值 μ \mu μ,以及总体个数 n n n,公式的另一种写法为:
σ 2 = E [ ( x − μ ) 2 ] = ∑ ( x − μ ) 2 p ( x ) \sigma^2=E[(x-\mu)^2]=\sum{(x-\mu)^2}p(x) σ2=E[(xμ)2]=(xμ)2p(x)
其中 p ( x ) p(x) p(x) x x x出现的概率,所以这个公式只对于离散变量有效


那么,如果总体量很大,不能做到全部采样,那么就需要用样本来估计总体,假设从总体为 N N N的总数中抽取 n n n个样本,其中 ( N > > n ) (N>>n) (N>>n),采样值为 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn
样本均值为:
x ˉ = ∑ i = 1 n x i n \bar{x}=\frac{\sum_{i=1}^{n}{x_i}}{n} xˉ=ni=1nxi
样本的方差为:
S 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n S^2=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n} S2=ni=1n(xixˉ)2
但是样本的方差和总体的方差是有差别的,计算样本方差的期望值,来估计样本方差和实际方差 σ 2 \sigma^2 σ2之间差了多少:
E [ S 2 ] = E [ ∑ i = 1 n ( x i − x ˉ ) 2 n ] E[S^2]=E[\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n}] E[S2]=E[ni=1n(xixˉ)2]
= E [ 1 n ∑ i = 1 n ( ( x i − μ ) − ( x ˉ − μ ) ) 2 ] =E[\frac{1}{n}\sum_{i=1}^{n}{((x_i-\mu)-(\bar{x}-\mu))^2}] =E[n1i=1n((xiμ)(xˉμ))2]
= E [ 1 n ∑ i = 1 n ( ( x i − μ ) 2 − 2 ( x i − μ ) ( x ˉ − μ ) + ( x ˉ − μ ) 2 ) ] =E[\frac{1}{n}\sum_{i=1}^{n}{((x_i-\mu)^2-2(x_i-\mu)(\bar{x}-\mu)+(\bar{x}-\mu)^2)}] =E[n1i=1n((xiμ)22(xiμ)(xˉμ)+(xˉμ)2)]
= E [ 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 n ( x ˉ − μ ) ∑ i = 1 n ( x i − μ ) + ( x ˉ − μ ) 2 ] =E[\frac{1}{n}\sum_{i=1}^{n}{(x_i-\mu)^2}-\frac{2}{n}(\bar{x}-\mu)\sum_{i=1}^{n}{(x_i-\mu)}+(\bar{x}-\mu)^2] =E[n1i=1n(xiμ)2n2(xˉμ)i=1n(xiμ)+(xˉμ)2]
其中
∑ i = 1 n ( x i − μ ) \sum_{i=1}^{n}{(x_i-\mu)} i=1n(xiμ)
= ∑ i = 1 n x i − ∑ i = 1 n μ =\sum_{i=1}^{n}{x_i}-\sum_{i=1}^{n}{\mu} =i=1nxii=1nμ
= n ( x ˉ − μ ) =n(\bar{x}-\mu) =n(xˉμ)
所以
= E [ 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 n ( x ˉ − μ ) ∑ i = 1 n ( x i − μ ) + ( x ˉ − μ ) 2 ] =E[\frac{1}{n}\sum_{i=1}^{n}{(x_i-\mu)^2}-\frac{2}{n}(\bar{x}-\mu)\sum_{i=1}^{n}{(x_i-\mu)}+(\bar{x}-\mu)^2] =E[n1i=1n(xiμ)2n2(xˉμ)i=1n(xiμ)+(xˉμ)2]
= E [ 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 ( x ˉ − μ ) 2 + ( x ˉ − μ ) 2 ] =E[\frac{1}{n}\sum_{i=1}^{n}{(x_i-\mu)^2}-2(\bar{x}-\mu)^2+(\bar{x}-\mu)^2] =E[n1i=1n(xiμ)22(xˉμ)2+(xˉμ)2]
= σ 2 − E [ ( x ˉ − μ ) 2 ] =\sigma^2-E[(\bar{x}-\mu)^2] =σ2E[(xˉμ)2]
(这里 σ 2 \sigma^2 σ2是因为样本方差的期望值是总体方差)
E [ ( x ˉ − μ ) 2 ] E[(\bar{x}-\mu)^2] E[(xˉμ)2]
= E ( x ˉ − E [ x ˉ ] ) 2 =E(\bar{x}-E[\bar{x}])^2 =E(xˉE[xˉ])2
= v a r ( x ˉ ) =var(\bar{x}) =var(xˉ)
= 1 n 2 v a r ( ∑ i = 1 n x i ) =\frac{1}{n^2}var(\sum_{i=1}^{n}{x_i}) =n21var(i=1nxi)
= 1 n 2 ∑ i = 1 n v a r ( x i ) =\frac{1}{n^2}\sum_{i=1}^{n}{var(x_i)} =n21i=1nvar(xi)
= n σ 2 n 2 =\frac{n\sigma^2}{n^2} =n2nσ2
= σ 2 n =\frac{\sigma^2}{n} =nσ2
根据上面推导的式子,有以下计算:
σ 2 − E [ ( x ˉ − μ ) 2 ] \sigma^2-E[(\bar{x}-\mu)^2] σ2E[(xˉμ)2]
= σ 2 − σ 2 n =\sigma^2-\frac{\sigma^2}{n} =σ2nσ2
= n − 1 n σ 2 =\frac{n-1}{n}\sigma^2 =nn1σ2
也就是说,样本估计的方差是总体方差的 n − 1 n \frac{n-1}{n} nn1倍,即所谓的有偏估计。要转换成无偏估计,只需要乘以倍数就可以了
n n − 1 S 2 = n n − 1 ∑ i = 1 n ( x i − x ˉ ) n = ∑ i = 1 n ( x i − x ˉ ) n − 1 \frac{n}{n-1}S^2=\frac{n}{n-1}\frac{\sum_{i=1}^{n}(x_i-\bar{x})}{n}=\frac{\sum_{i=1}^{n}(x_i-\bar{x})}{n-1} n1nS2=n1nni=1n(xixˉ)=n1i=1n(xixˉ)
这即是所谓的无偏估计


当然,还有一种比较直接的解释,由于是求样本中的方差,所以在求解样本均值时,已经用掉了一个自由度的值,所以求方差时,其实有用的值会少一个。例如在只有一个样本时,这时求样本方差是不能估计总体方差的。
所以,总体方差和样本方差的区别是在于信息量,总体的信息是完全确定的,即这时求出来的统计参数都是能确定地表征总体的分布信息。但是用样本的信息去估计总体,则不能确定表征总体的分布信息,之间相差了一个自由度。

  • 21
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值