第三章 数字特征与特征函数(2)
1.方差的计算与性质
方差是另一种数字特征,由于均值反映的是取值的集中点,但是对于同样均值的随机变量,其集中程度可能不同,有的随机变量分布比较分散、有的则比较集中。为了反映数据关于中心的偏离程度,引入期望为
D
ξ
=
E
(
ξ
−
E
ξ
)
2
.
D\xi = E(\xi-E\xi)^2.
Dξ=E(ξ−Eξ)2.
显然,一个随机变量如果存在方差,则必然存在期望。这里的
ξ
−
E
ξ
\xi-E\xi
ξ−Eξ代表随机变量偏离其中心的程度,如果不加平方,则随机变量的正偏离与负偏离相互抵消,加了平方后偏离总为正值,故
D
ξ
≥
0
D\xi\ge0
Dξ≥0是恒成立的。令
a
=
E
ξ
a=E\xi
a=Eξ,则
D
ξ
=
E
(
ξ
−
a
)
2
=
E
(
ξ
2
−
2
ξ
+
a
2
)
=
E
ξ
2
−
2
a
E
ξ
+
a
2
=
E
ξ
2
−
a
2
.
D\xi=E(\xi-a)^2=E(\xi^2-2\xi+a^2)=E\xi^2-2aE\xi+a^2=E\xi^2-a^2.
Dξ=E(ξ−a)2=E(ξ2−2ξ+a2)=Eξ2−2aEξ+a2=Eξ2−a2.
就得到了
D
ξ
=
E
ξ
2
−
(
E
ξ
)
2
D\xi=E\xi^2-(E\xi)^2
Dξ=Eξ2−(Eξ)2,这个公式是用来计算方差的简便公式,相对于直接应用方差的计算公式
D
ξ
=
∫
−
∞
∞
(
x
−
E
ξ
)
2
d
F
(
x
)
D\xi=\int_{-\infty}^\infty (x-E\xi)^2dF(x)
Dξ=∫−∞∞(x−Eξ)2dF(x)而言,只需要计算期望和二阶矩
E
ξ
2
=
∫
−
∞
∞
x
2
d
F
(
x
)
E\xi^2=\int_{-\infty}^\infty x^2dF(x)
Eξ2=∫−∞∞x2dF(x)。
关于方差最重要的不等式是Chebyshev不等式,它的形式如下:
P
(
∣
ξ
−
E
ξ
∣
≥
ϵ
)
≤
D
ξ
ϵ
2
.
P(|\xi-E\xi|\ge \epsilon)\le \frac{D\xi}{\epsilon^2}.
P(∣ξ−Eξ∣≥ϵ)≤ϵ2Dξ.
这个式子的重要性在第四章大数定律中体现,暂时用不上,但它的证明方法——二次放大,有一定代表性。
P
(
∣
ξ
−
E
ξ
∣
≥
ϵ
)
=
∫
∣
x
−
E
ξ
∣
≥
ϵ
d
F
(
x
)
≤
∫
∣
x
−
E
ξ
∣
≥
ϵ
∣
x
−
E
ξ
∣
2
ϵ
2
d
F
(
x
)
=
∫
∣
x
−
E
ξ
∣
≥
ϵ
(
x
−
E
ξ
)
2
ϵ
2
d
F
(
x
)
≤
1
ϵ
2
∫
−
∞
∞
(
x
−
E
ξ
)
2
d
F
(
x
)
=
D
ξ
ϵ
2
.
\begin{aligned} P(|\xi-E\xi|\ge\epsilon)=&\int_{|x-E\xi|\ge \epsilon} dF(x)\\ \le &\int_{|x-E\xi|\ge \epsilon}\frac{|x-E\xi|^2}{\epsilon^2}dF(x)\\ =&\int_{|x-E\xi|\ge \epsilon}\frac{(x-E\xi)^2}{\epsilon^2}dF(x)\\ \le&\frac{1}{\epsilon^2}\int_{-\infty}^\infty (x-E\xi)^2dF(x)\\ =&\frac{D\xi}{\epsilon^2}. \end{aligned}
P(∣ξ−Eξ∣≥ϵ)=≤=≤=∫∣x−Eξ∣≥ϵdF(x)∫∣x−Eξ∣≥ϵϵ2∣x−Eξ∣2dF(x)∫∣x−Eξ∣≥ϵϵ2(x−Eξ)2dF(x)ϵ21∫−∞∞(x−Eξ)2dF(x)ϵ2Dξ.
还有关于方差的其他性质,重要的是线性计算性质。
-
D ξ = 0 D\xi=0 Dξ=0的充要条件是 P ( ξ = c ) = 1 P(\xi=c)=1 P(ξ=c)=1,即最多存在一个0概率集,使得 ξ \xi ξ不为定常数。
-
对于常数 c , d c,d c,d,有 D ( c ξ + d ) = c 2 D ξ D(c\xi+d)=c^2D\xi D(cξ+d)=c2Dξ。这说明尺度系数对方差的影响是二次的,而常数偏离对方差没有影响(因为不改变数据的集中程度)。
由于 D ξ = E ξ 2 − ( E ξ ) 2 D\xi=E\xi^2-(E\xi)^2 Dξ=Eξ2−(Eξ)2,可以看到方差与期望的量纲不同,因此定义标准差为 D ξ \sqrt{D\xi} Dξ,它的量纲与 E ξ E\xi Eξ相同,这也解释了为什么尺度系数对方差影响是二次的。
-
期望与均方误差: ∀ c ≠ E ξ , D ξ = E ( ξ − E ξ ) 2 < E ( ξ − c ) 2 \forall c\neq E\xi,D\xi =E(\xi-E\xi)^2<E(\xi-c)^2 ∀c=Eξ,Dξ=E(ξ−Eξ)2<E(ξ−c)2,也就是说,期望在均方误差意义下是随机变量的最佳常数预测。
对于随机变量的最佳变量预测也与期望有关,对于 E η 2 < ∞ E\eta^2<\infty Eη2<∞的随机变量 η \eta η,给定一个预测随机变量 ξ \xi ξ,令 m ( ξ ) = E ( η ∣ ξ ) m(\xi)=E(\eta|\xi) m(ξ)=E(η∣ξ),则对任何实函数有 E ( η − m ( ξ ) ) 2 < E ( η − g ( ξ ) ) 2 E(\eta-m(\xi))^2<E(\eta-g(\xi))^2 E(η−m(ξ))2<E(η−g(ξ))2,即 E ( η ∣ ξ ) E(\eta|\xi) E(η∣ξ)是对 η \eta η在均方误差意义下的最佳预测。显然,最佳变量预测优于最佳常数预测。
-
对于独立随机变量列 ξ 1 , ⋯ , ξ n \xi_1,\cdots,\xi_n ξ1,⋯,ξn,有 D ( ∑ i = 1 n ξ i ) = ∑ i = 1 n D ξ i D(\sum\limits_{i=1}^n \xi_i)=\sum\limits_{i=1}^n D\xi_i D(i=1∑nξi)=i=1∑nDξi,也就是说独立随机变量的方差具有可拆分性。注意,只有针对独立随机变量才成立!对非独立的随机变量,将由其他的公式计算。
标准化:如果随机变量的期望与方差都存在,分别记为
E
ξ
=
a
,
D
ξ
=
σ
2
E\xi=a,D\xi=\sigma^2
Eξ=a,Dξ=σ2,则将
ξ
∗
=
ξ
−
a
σ
\xi^*=\frac{\xi-a}{\sigma}
ξ∗=σξ−a
称为随机变量
ξ
\xi
ξ的标准化。标准化的重要意义在于,它将随机变量
ξ
\xi
ξ通过线性变换转化为期望为0,方差为1的同类型随机变量
ξ
∗
\xi^*
ξ∗,从而满足同一种分布但参数不同的随机变量都可以统一讨论了。
2.协方差
方差研究随机变量自身的偏离程度,而协方差研究的则是两个随机变量之间的相互关系。定义
(
X
,
Y
)
(X,Y)
(X,Y)的协方差为
C
o
v
(
X
,
Y
)
=
E
(
X
−
E
X
)
(
Y
−
E
Y
)
=
∫
−
∞
∞
∫
−
∞
∞
(
x
−
E
X
)
(
y
−
E
Y
)
d
x
d
y
Cov(X,Y)=E(X-EX)(Y-EY)=\int_{-\infty}^\infty \int_{-\infty}^\infty (x-EX)(y-EY)dxdy
Cov(X,Y)=E(X−EX)(Y−EY)=∫−∞∞∫−∞∞(x−EX)(y−EY)dxdy
就像方差一样,由于看上去这样的积分计算并不容易,我们可以换成简单的计算,令
E
X
=
a
,
E
Y
=
b
EX=a,EY=b
EX=a,EY=b,则
C
o
v
(
X
,
Y
)
=
∫
−
∞
∞
∫
−
∞
∞
(
x
−
a
)
(
y
−
b
)
d
F
(
x
,
y
)
=
∫
−
∞
∞
∫
−
∞
∞
(
x
y
−
a
y
−
b
x
+
a
b
)
d
F
(
x
,
y
)
=
E
(
X
Y
)
−
a
E
Y
−
b
E
Y
+
a
b
=
E
(
X
Y
)
−
a
b
\begin{aligned} Cov(X,Y)=&\int_{-\infty}^\infty \int_{-\infty}^\infty (x-a)(y-b)dF(x,y)\\ =&\int_{-\infty}^\infty \int_{-\infty}^\infty (xy-ay-bx+ab)dF(x,y)\\ =&E(XY)-aEY-bEY+ab\\ =&E(XY)-ab \end{aligned}
Cov(X,Y)====∫−∞∞∫−∞∞(x−a)(y−b)dF(x,y)∫−∞∞∫−∞∞(xy−ay−bx+ab)dF(x,y)E(XY)−aEY−bEY+abE(XY)−ab
所以协方差的常用计算式为
C
o
v
(
X
,
Y
)
=
E
(
X
Y
)
−
E
X
E
Y
Cov(X,Y)=E(XY)-EXEY
Cov(X,Y)=E(XY)−EXEY。特别当
X
=
Y
X=Y
X=Y时,代入计算式,得到
C
o
v
(
X
,
X
)
=
E
X
2
−
(
E
X
)
2
=
D
X
Cov(X,X)=EX^2-(EX)^2=DX
Cov(X,X)=EX2−(EX)2=DX,得到协方差与方差的联系。
协方差的相关性质:
-
可交换: C o v ( X , Y ) = C o v ( Y , X ) = E ( X Y ) − E X E Y Cov(X,Y)=Cov(Y,X)=E(XY)-EXEY Cov(X,Y)=Cov(Y,X)=E(XY)−EXEY。
-
线性计算性质: C o v ( a X , b Y ) = a b C o v ( X , Y ) , C o v ( X + Y , Z ) = C o v ( X , Z ) + C o v ( Y , Z ) Cov(aX,bY)=abCov(X,Y),Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z) Cov(aX,bY)=abCov(X,Y),Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)。由线性计算性质,可以把任意 ∑ i = 1 n c i ξ i \sum\limits_{i=1}^n c_i\xi_i i=1∑nciξi与 Y Y Y的协方差计算出来。
-
此时可以计算任何随机变量和的方差了:
D ( ∑ i = 1 n ξ i ) = ∑ i = 1 n D ξ i + ∑ i ≠ j C o v ( ξ i , ξ j ) D(\sum\limits_{i=1}^n\xi_i)=\sum\limits_{i=1}^n D\xi_i+\sum\limits_{i\ne j}Cov(\xi_i,\xi_j) D(i=1∑nξi)=i=1∑nDξi+i=j∑Cov(ξi,ξj),这里第二项,指的是任意两个随机变量有序对的协方差之和,一共有 A n 2 = n ( n − 1 ) A_{n}^2=n(n-1) An2=n(n−1)个协方差项。也可以写成任意两个随机变量无序对的协方差之和的两倍,即 D ( ∑ i = 1 n ξ i ) = ∑ i = 1 n D ξ i + 2 ∑ 1 ≤ i < j ≤ n C o v ( ξ i , ξ j ) D(\sum\limits_{i=1}^n\xi_i)=\sum\limits_{i=1}^n D\xi_i+2\sum\limits_{1\le i<j\le n}Cov(\xi_i,\xi_j) D(i=1∑nξi)=i=1∑nDξi+21≤i<j≤n∑Cov(ξi,ξj)。
在介绍到随机向量时,会有更简易的视图来表示随机变量和的方差。
3.相关系数
前面介绍了随机变量的标准化,如果对于两个标准化后的随机变量 X ∗ , Y ∗ X^*,Y^* X∗,Y∗求协方差,它们的协方差与 X , Y X,Y X,Y的协方差有什么关系呢?
首先要明白一个结论:常数与任何随机变量的协方差都为0,即
C
o
v
(
a
,
X
)
=
E
(
a
X
)
−
a
E
X
=
0
Cov(a,X)=E(aX)-aEX=0
Cov(a,X)=E(aX)−aEX=0,于是有
C
o
v
(
X
−
a
,
Y
−
b
)
=
C
o
v
(
X
,
Y
)
Cov(X-a,Y-b)=Cov(X,Y)
Cov(X−a,Y−b)=Cov(X,Y),即随机变量的协方差不随平移变化。这样就得到
C
o
v
(
X
∗
,
Y
∗
)
=
C
o
v
(
X
−
E
X
D
X
,
Y
−
E
Y
D
Y
)
=
C
o
v
(
X
,
Y
)
D
X
⋅
D
Y
.
Cov(X^*,Y^*)=Cov(\frac{X-EX}{\sqrt {DX}},\frac{Y-EY}{\sqrt{DY}})=\frac{Cov(X,Y)}{\sqrt{DX\cdot DY}}.
Cov(X∗,Y∗)=Cov(DXX−EX,DYY−EY)=DX⋅DYCov(X,Y).
将两个随机变量标准化后的协方差称为相关系数,记作
r
X
Y
r_{XY}
rXY。相关系数的重要性,在于它的取值范围是
[
−
1
,
1
]
[-1, 1]
[−1,1],由Cauchy-Schwarz不等式保证
(
E
X
Y
)
2
≤
E
X
2
E
Y
2
(EXY)^2\le EX^2EY^2
(EXY)2≤EX2EY2,因此
∣
r
X
Y
∣
=
∣
C
o
v
(
X
∗
,
Y
∗
)
∣
=
∣
E
(
X
∗
Y
∗
)
∣
≤
E
X
∗
2
E
Y
∗
2
=
D
X
∗
D
Y
∗
=
1.
|r_{XY}|=|Cov(X^*,Y^*)|=|E(X^*Y^*)|\le \sqrt{E{X^*}^2E{Y^*}^2}=\sqrt{DX^*DY^*}=1.
∣rXY∣=∣Cov(X∗,Y∗)∣=∣E(X∗Y∗)∣≤EX∗2EY∗2=DX∗DY∗=1.
也就是
∣
r
X
Y
∣
≤
1
|r_{XY}|\le 1
∣rXY∣≤1,即相关系数被严格限制在一个范围内。当
r
X
Y
r_{XY}
rXY取边界值
1
,
−
1
1,-1
1,−1或中间值
0
0
0时分别有什么含义,还要看Cauchy-Schwarz不等式的证明,如下:
E
(
X
−
t
Y
)
2
=
E
(
X
2
−
2
t
X
Y
+
t
2
Y
2
)
=
E
(
Y
2
)
t
2
−
2
E
(
X
Y
)
t
+
E
(
X
2
)
E(X-tY)^2=E(X^2-2tXY+t^2Y^2)=E(Y^2)t^2-2E(XY)t+E(X^2)
E(X−tY)2=E(X2−2tXY+t2Y2)=E(Y2)t2−2E(XY)t+E(X2)
由于
E
(
X
−
t
Y
)
2
≥
0
E(X-tY)^2\ge 0
E(X−tY)2≥0,因此其判别式
≤
0
\le0
≤0,即
Δ
=
4
(
E
X
Y
)
2
−
4
(
E
X
2
E
Y
2
)
≤
0
⇒
∣
E
X
Y
∣
2
≤
E
X
2
E
Y
2
.
\Delta=4(EXY)^2-4(EX^2EY^2)\le0\Rightarrow |EXY|^2\le EX^2EY^2.
Δ=4(EXY)2−4(EX2EY2)≤0⇒∣EXY∣2≤EX2EY2.
等号成立的条件是
P
(
X
−
t
Y
=
0
)
=
1
P(X-tY=0)=1
P(X−tY=0)=1,即
∃
t
0
,
X
=
t
0
Y
\exist t_0,X=t_0Y
∃t0,X=t0Y,而等号成立又对应着
∣
r
X
Y
∣
=
1
|r_{XY}|=1
∣rXY∣=1的等号成立。因此,有以下结论:
- r X Y = ± 1 r_{XY}=\pm1 rXY=±1代表随机变量 X , Y X,Y X,Y线性相关,当 r X Y > 0 r_{XY}>0 rXY>0时是正相关, r X Y < 0 r_{XY}<0 rXY<0时是负相关。
- r X Y = 0 r_{XY}=0 rXY=0意味着 C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0,此时我们称 X , Y X,Y X,Y不相关。
- 一般相关系数的绝对值越大,随机变量之间的关系就越密切。
需要注意,不相关不同于独立,独立要求两个随机变量没有任何联系,即 P ( X ∣ Y ) = P ( X ) P(X|Y)=P(X) P(X∣Y)=P(X),是更强的约束;而不相关仅仅要求二者协方差为0,是更弱的要求。只有在一些特殊情况下可以由不相关推出独立,而独立随机变量在任何情况下都是不相关的。今后,我们对不相关的讨论会更多。