数学期望即均值给出了随机变量的平均大小,然而我们还常常关心随机变量的取值在均值周围的散布程度.比如在考察一个地区农民的贫富情况时,我们不但关心农民的人均年收入,还关心各个农民的个人年收入与人均年收入的偏离程度.例如有甲、乙两个乡的人均年收入都是6000元,而两个乡农民的个人年收入的总的情况却不一样,甲乡各人的年收入大多集中在6000元附近,而乙乡农民的个人年收入与6000元的偏离程度较大,即贫富差别较大(取相同积分区域啊a,b,显然曲线甲在6000左右的这个积分区间的积分值更大,说明收入差距小,更多的人收入趋近于期望值).
定义 设X是随机变量,若E{[X-E(X)]2}存在,称它为X的方差,记为D(X)或var(X),即D(X)=var(X)=E{[X-E(X)]2}.方差的算术平方根称为X的均方差或标准差.
如果对于方差和离散度还没有直观的认识,我们用下面的图来说明。
下图以高斯分布为例,期望值为500,标准差分别为50,100,150,200时候的曲线。可见方差越小,数据越集中,反之越分散。
生成该图像的python代码如下:
import matplotlib.pyplot as plt
import scipy as sp
def FGauss(x,mean,variance):
return 1/(sp.sqrt(2*sp.pi)*variance)*pow(sp.e,-1*(x-mean)**2/(2*variance**2))
mean=500
variance=[50,100,150,200]
for i in range(4):
gauss_data=[]
for j in range(1000):
gauss_data.append(FGauss(j,mean,variance[i]))
plt.plot(gauss_data,label="Variance=%d"%variance[i])
plt.legend()
plt.show()
根据方差的定义,可以写出离散型和连续型随机变量的方差公式:
D(X)=
{
∑
k
=
1
∞
[
x
k
−
E
(
X
)
]
2
p
k
X
是
离
散
型
∫
−
∞
∞
[
x
−
E
(
X
)
]
2
f
(
x
)
d
x
X
是
连
续
型
\left\{\begin{array}{lc}\sum_{k=1}^\infty\left[x_k-E\left(X\right)\right]^2p_k&X\mathrm{是离散型}\\\int_{-\infty}^\infty\left[x-E\left(X\right)\right]^2f\left(x\right)\operatorname dx&X\mathrm{是连续型}\end{array}\right.
{∑k=1∞[xk−E(X)]2pk∫−∞∞[x−E(X)]2f(x)dxX是离散型X是连续型
容易证明:D(X)=E(X2)-E2(X)
同理,也能证明泊松分布的方差与期望值相等,都是
λ
\lambda
λ
附泊松函数:P(X=k)=
λ
k
e
−
λ
k
!
\frac{\lambda ^ke^{-\lambda }}{k!}
k!λke−λ
方差具有如下运算性质:
D©=0
D(cX)=c2D(X)
D(X+c)=D(X)
D(X+Y)=D(X)+D(Y)+2[E(XY)-E(X)E(Y),当X,Y互相独立时候,这个式子简化为:
D(X+Y)=D(X)+D(Y)