常用的方差(variance)、标准偏差(standard derivation)的内涵和计算方法有许多容易混淆之处,本文进行梳理。
统计量的定义
对于随机变量
对于随机变量 X X X,我们用期望定义了其统计量。这些统计量都是固定的常数。
均值:
μ = E [ X ] \mu = E\left[X\right] μ=E[X]
方差:
v a r = σ 2 = E [ ( X − μ ) 2 ] = E [ X 2 ] − μ 2 var=\sigma^2=E\left[ (X-\mu \right)^2]=E\left[X^2\right]-\mu^2 var=σ2=E[(X−μ)2]=E[X2]−μ2
标准偏差就是方差的平方根:
s t d = σ std=\sigma std=σ
对于已知样本集
如果全体样本集(polulation)的每一个样本 x 1 , x 2 . . . x N x_1,x_2...x_N x1,x2...xN都能直接使用,可以直接计算出该样本集的各种统计量。
μ = 1 N ∑ i x i \mu = \frac{1}{N}\sum_ix_i μ=N1i∑xi
v a r = 1 N ∑ i ( x i − μ ) 2 var=\frac{1}{N}\sum_i(x_i-\mu)^2 var=N1i∑(xi−μ)2
s t d = v a r std=\sqrt{var} std=var
这样计算得到的方差常被称为全体方差(population variance)。
统计量的估计
有时候无法得知统计量的实际值:
- 对于随机变量,无法观测产生这个变量的参数,只能得到一系列随机的采样;
- 对于数量巨大、甚至无穷多的样本集,我们无法使用全部样本进行计算,只能随机有放回地抽取一部分采样。
由于两种情况都包含有随机性,所以估计得到的统计量本身也是个随机变量,并非真实值。用上横线以示区分。
估计可以有不同方法,各有不同性质。
复习一下期望的性质。
E ( A + B ) = E A + E B E(A+B)=EA+EB E(A