我们知道,统计学上方差的计算公式如下:
σ 2 = ∑ i = 1 n ( x i − μ ) n \sigma^2=\frac{\sum_{i=1}^{n}(x_i-\mu)}{n} σ2=n∑i=1n(xi−μ)
这是统计学中方差的定义,已知条件有总体的均值 μ \mu μ,以及总体个数 n n n,公式的另一种写法为:
σ 2 = E [ ( x − μ ) 2 ] = ∑ ( x − μ ) 2 p ( x ) \sigma^2=E[(x-\mu)^2]=\sum{(x-\mu)^2}p(x) σ2=E[(x−μ)2]=∑(x−μ)2p(x)
其中 p ( x ) p(x) p(x)是 x x x出现的概率,所以这个公式只对于离散变量有效
那么,如果总体量很大,不能做到全部采样,那么就需要用样本来估计总体,假设从总体为 N N N的总数中抽取 n n n个样本,其中 ( N > > n ) (N>>n) (N>>n),采样值为 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn
样本均值为:
x ˉ = ∑ i = 1 n x i n \bar{x}=\frac{\sum_{i=1}^{n}{x_i}}{n} xˉ=n∑i=1nxi
样本的方差为:
S 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n S^2=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n} S2=n∑i=1n(xi−xˉ)2
但是样本的方差和总体的方差是有差别的,计算样本方差的期望值,来估计样本方差和实际方差 σ 2 \sigma^2 σ2之间差了多少:
E [ S 2 ] = E [ ∑ i = 1 n