09.第三章 数字特征与特征函数(2)

第三章 数字特征与特征函数(2)

1.方差的计算与性质

方差是另一种数字特征,由于均值反映的是取值的集中点,但是对于同样均值的随机变量,其集中程度可能不同,有的随机变量分布比较分散、有的则比较集中。为了反映数据关于中心的偏离程度,引入期望为
D ξ = E ( ξ − E ξ ) 2 . D\xi = E(\xi-E\xi)^2. Dξ=E(ξEξ)2.
显然,一个随机变量如果存在方差,则必然存在期望。这里的 ξ − E ξ \xi-E\xi ξEξ代表随机变量偏离其中心的程度,如果不加平方,则随机变量的正偏离与负偏离相互抵消,加了平方后偏离总为正值,故 D ξ ≥ 0 D\xi\ge0 Dξ0是恒成立的。令 a = E ξ a=E\xi a=Eξ,则
D ξ = E ( ξ − a ) 2 = E ( ξ 2 − 2 ξ + a 2 ) = E ξ 2 − 2 a E ξ + a 2 = E ξ 2 − a 2 . D\xi=E(\xi-a)^2=E(\xi^2-2\xi+a^2)=E\xi^2-2aE\xi+a^2=E\xi^2-a^2. Dξ=E(ξa)2=E(ξ22ξ+a2)=Eξ22aEξ+a2=Eξ2a2.
就得到了 D ξ = E ξ 2 − ( E ξ ) 2 D\xi=E\xi^2-(E\xi)^2 Dξ=Eξ2(Eξ)2,这个公式是用来计算方差的简便公式,相对于直接应用方差的计算公式 D ξ = ∫ − ∞ ∞ ( x − E ξ ) 2 d F ( x ) D\xi=\int_{-\infty}^\infty (x-E\xi)^2dF(x) Dξ=(xEξ)2dF(x)而言,只需要计算期望和二阶矩 E ξ 2 = ∫ − ∞ ∞ x 2 d F ( x ) E\xi^2=\int_{-\infty}^\infty x^2dF(x) Eξ2=x2dF(x)

关于方差最重要的不等式是Chebyshev不等式,它的形式如下:
P ( ∣ ξ − E ξ ∣ ≥ ϵ ) ≤ D ξ ϵ 2 . P(|\xi-E\xi|\ge \epsilon)\le \frac{D\xi}{\epsilon^2}. P(ξEξϵ)ϵ2Dξ.
这个式子的重要性在第四章大数定律中体现,暂时用不上,但它的证明方法——二次放大,有一定代表性。
P ( ∣ ξ − E ξ ∣ ≥ ϵ ) = ∫ ∣ x − E ξ ∣ ≥ ϵ d F ( x ) ≤ ∫ ∣ x − E ξ ∣ ≥ ϵ ∣ x − E ξ ∣ 2 ϵ 2 d F ( x ) = ∫ ∣ x − E ξ ∣ ≥ ϵ ( x − E ξ ) 2 ϵ 2 d F ( x ) ≤ 1 ϵ 2 ∫ − ∞ ∞ ( x − E ξ ) 2 d F ( x ) = D ξ ϵ 2 . \begin{aligned} P(|\xi-E\xi|\ge\epsilon)=&\int_{|x-E\xi|\ge \epsilon} dF(x)\\ \le &\int_{|x-E\xi|\ge \epsilon}\frac{|x-E\xi|^2}{\epsilon^2}dF(x)\\ =&\int_{|x-E\xi|\ge \epsilon}\frac{(x-E\xi)^2}{\epsilon^2}dF(x)\\ \le&\frac{1}{\epsilon^2}\int_{-\infty}^\infty (x-E\xi)^2dF(x)\\ =&\frac{D\xi}{\epsilon^2}. \end{aligned} P(ξEξϵ)===xEξϵdF(x)xEξϵϵ2xEξ2dF(x)xEξϵϵ2(xEξ)2dF(x)ϵ21(xEξ)2dF(x)ϵ2Dξ.
还有关于方差的其他性质,重要的是线性计算性质。

  1. D ξ = 0 D\xi=0 Dξ=0的充要条件是 P ( ξ = c ) = 1 P(\xi=c)=1 P(ξ=c)=1,即最多存在一个0概率集,使得 ξ \xi ξ不为定常数。

  2. 对于常数 c , d c,d c,d,有 D ( c ξ + d ) = c 2 D ξ D(c\xi+d)=c^2D\xi D(cξ+d)=c2Dξ。这说明尺度系数对方差的影响是二次的,而常数偏离对方差没有影响(因为不改变数据的集中程度)。

    由于 D ξ = E ξ 2 − ( E ξ ) 2 D\xi=E\xi^2-(E\xi)^2 Dξ=Eξ2(Eξ)2,可以看到方差与期望的量纲不同,因此定义标准差为 D ξ \sqrt{D\xi} Dξ ,它的量纲与 E ξ E\xi Eξ相同,这也解释了为什么尺度系数对方差影响是二次的。

  3. 期望与均方误差 ∀ c ≠ E ξ , D ξ = E ( ξ − E ξ ) 2 < E ( ξ − c ) 2 \forall c\neq E\xi,D\xi =E(\xi-E\xi)^2<E(\xi-c)^2 c=Eξ,Dξ=E(ξEξ)2<E(ξc)2,也就是说,期望在均方误差意义下是随机变量的最佳常数预测

    对于随机变量的最佳变量预测也与期望有关,对于 E η 2 < ∞ E\eta^2<\infty Eη2<的随机变量 η \eta η,给定一个预测随机变量 ξ \xi ξ,令 m ( ξ ) = E ( η ∣ ξ ) m(\xi)=E(\eta|\xi) m(ξ)=E(ηξ),则对任何实函数有 E ( η − m ( ξ ) ) 2 < E ( η − g ( ξ ) ) 2 E(\eta-m(\xi))^2<E(\eta-g(\xi))^2 E(ηm(ξ))2<E(ηg(ξ))2,即 E ( η ∣ ξ ) E(\eta|\xi) E(ηξ)是对 η \eta η在均方误差意义下的最佳预测。显然,最佳变量预测优于最佳常数预测。

  4. 对于独立随机变量列 ξ 1 , ⋯   , ξ n \xi_1,\cdots,\xi_n ξ1,,ξn,有 D ( ∑ i = 1 n ξ i ) = ∑ i = 1 n D ξ i D(\sum\limits_{i=1}^n \xi_i)=\sum\limits_{i=1}^n D\xi_i D(i=1nξi)=i=1nDξi,也就是说独立随机变量的方差具有可拆分性。注意,只有针对独立随机变量才成立!对非独立的随机变量,将由其他的公式计算。

标准化:如果随机变量的期望与方差都存在,分别记为 E ξ = a , D ξ = σ 2 E\xi=a,D\xi=\sigma^2 Eξ=a,Dξ=σ2,则将
ξ ∗ = ξ − a σ \xi^*=\frac{\xi-a}{\sigma} ξ=σξa
称为随机变量 ξ \xi ξ标准化。标准化的重要意义在于,它将随机变量 ξ \xi ξ通过线性变换转化为期望为0,方差为1同类型随机变量 ξ ∗ \xi^* ξ,从而满足同一种分布但参数不同的随机变量都可以统一讨论了。

2.协方差

方差研究随机变量自身的偏离程度,而协方差研究的则是两个随机变量之间的相互关系。定义 ( X , Y ) (X,Y) (X,Y)的协方差为
C o v ( X , Y ) = E ( X − E X ) ( Y − E Y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ ( x − E X ) ( y − E Y ) d x d y Cov(X,Y)=E(X-EX)(Y-EY)=\int_{-\infty}^\infty \int_{-\infty}^\infty (x-EX)(y-EY)dxdy Cov(X,Y)=E(XEX)(YEY)=(xEX)(yEY)dxdy
就像方差一样,由于看上去这样的积分计算并不容易,我们可以换成简单的计算,令 E X = a , E Y = b EX=a,EY=b EX=a,EY=b,则
C o v ( X , Y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ ( x − a ) ( y − b ) d F ( x , y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ ( x y − a y − b x + a b ) d F ( x , y ) = E ( X Y ) − a E Y − b E Y + a b = E ( X Y ) − a b \begin{aligned} Cov(X,Y)=&\int_{-\infty}^\infty \int_{-\infty}^\infty (x-a)(y-b)dF(x,y)\\ =&\int_{-\infty}^\infty \int_{-\infty}^\infty (xy-ay-bx+ab)dF(x,y)\\ =&E(XY)-aEY-bEY+ab\\ =&E(XY)-ab \end{aligned} Cov(X,Y)====(xa)(yb)dF(x,y)(xyaybx+ab)dF(x,y)E(XY)aEYbEY+abE(XY)ab
所以协方差的常用计算式为 C o v ( X , Y ) = E ( X Y ) − E X E Y Cov(X,Y)=E(XY)-EXEY Cov(X,Y)=E(XY)EXEY。特别当 X = Y X=Y X=Y时,代入计算式,得到 C o v ( X , X ) = E X 2 − ( E X ) 2 = D X Cov(X,X)=EX^2-(EX)^2=DX Cov(X,X)=EX2(EX)2=DX,得到协方差与方差的联系。

协方差的相关性质:

  1. 可交换: C o v ( X , Y ) = C o v ( Y , X ) = E ( X Y ) − E X E Y Cov(X,Y)=Cov(Y,X)=E(XY)-EXEY Cov(X,Y)=Cov(Y,X)=E(XY)EXEY

  2. 线性计算性质: C o v ( a X , b Y ) = a b C o v ( X , Y ) , C o v ( X + Y , Z ) = C o v ( X , Z ) + C o v ( Y , Z ) Cov(aX,bY)=abCov(X,Y),Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z) Cov(aX,bY)=abCov(X,Y),Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)。由线性计算性质,可以把任意 ∑ i = 1 n c i ξ i \sum\limits_{i=1}^n c_i\xi_i i=1nciξi Y Y Y的协方差计算出来。

  3. 此时可以计算任何随机变量和的方差了:

    D ( ∑ i = 1 n ξ i ) = ∑ i = 1 n D ξ i + ∑ i ≠ j C o v ( ξ i , ξ j ) D(\sum\limits_{i=1}^n\xi_i)=\sum\limits_{i=1}^n D\xi_i+\sum\limits_{i\ne j}Cov(\xi_i,\xi_j) D(i=1nξi)=i=1nDξi+i=jCov(ξi,ξj),这里第二项,指的是任意两个随机变量有序对的协方差之和,一共有 A n 2 = n ( n − 1 ) A_{n}^2=n(n-1) An2=n(n1)个协方差项。也可以写成任意两个随机变量无序对的协方差之和的两倍,即 D ( ∑ i = 1 n ξ i ) = ∑ i = 1 n D ξ i + 2 ∑ 1 ≤ i < j ≤ n C o v ( ξ i , ξ j ) D(\sum\limits_{i=1}^n\xi_i)=\sum\limits_{i=1}^n D\xi_i+2\sum\limits_{1\le i<j\le n}Cov(\xi_i,\xi_j) D(i=1nξi)=i=1nDξi+21i<jnCov(ξi,ξj)

    在介绍到随机向量时,会有更简易的视图来表示随机变量和的方差。

3.相关系数

前面介绍了随机变量的标准化,如果对于两个标准化后的随机变量 X ∗ , Y ∗ X^*,Y^* X,Y求协方差,它们的协方差与 X , Y X,Y X,Y的协方差有什么关系呢?

首先要明白一个结论:常数与任何随机变量的协方差都为0,即 C o v ( a , X ) = E ( a X ) − a E X = 0 Cov(a,X)=E(aX)-aEX=0 Cov(a,X)=E(aX)aEX=0,于是有 C o v ( X − a , Y − b ) = C o v ( X , Y ) Cov(X-a,Y-b)=Cov(X,Y) Cov(Xa,Yb)=Cov(XY),即随机变量的协方差不随平移变化。这样就得到
C o v ( X ∗ , Y ∗ ) = C o v ( X − E X D X , Y − E Y D Y ) = C o v ( X , Y ) D X ⋅ D Y . Cov(X^*,Y^*)=Cov(\frac{X-EX}{\sqrt {DX}},\frac{Y-EY}{\sqrt{DY}})=\frac{Cov(X,Y)}{\sqrt{DX\cdot DY}}. Cov(X,Y)=Cov(DX XEX,DY YEY)=DXDY Cov(X,Y).
将两个随机变量标准化后的协方差称为相关系数,记作 r X Y r_{XY} rXY。相关系数的重要性,在于它的取值范围是 [ − 1 , 1 ] [-1, 1] [1,1],由Cauchy-Schwarz不等式保证 ( E X Y ) 2 ≤ E X 2 E Y 2 (EXY)^2\le EX^2EY^2 (EXY)2EX2EY2,因此
∣ r X Y ∣ = ∣ C o v ( X ∗ , Y ∗ ) ∣ = ∣ E ( X ∗ Y ∗ ) ∣ ≤ E X ∗ 2 E Y ∗ 2 = D X ∗ D Y ∗ = 1. |r_{XY}|=|Cov(X^*,Y^*)|=|E(X^*Y^*)|\le \sqrt{E{X^*}^2E{Y^*}^2}=\sqrt{DX^*DY^*}=1. rXY=Cov(X,Y)=E(XY)EX2EY2 =DXDY =1.
也就是 ∣ r X Y ∣ ≤ 1 |r_{XY}|\le 1 rXY1,即相关系数被严格限制在一个范围内。当 r X Y r_{XY} rXY取边界值 1 , − 1 1,-1 1,1或中间值 0 0 0时分别有什么含义,还要看Cauchy-Schwarz不等式的证明,如下:
E ( X − t Y ) 2 = E ( X 2 − 2 t X Y + t 2 Y 2 ) = E ( Y 2 ) t 2 − 2 E ( X Y ) t + E ( X 2 ) E(X-tY)^2=E(X^2-2tXY+t^2Y^2)=E(Y^2)t^2-2E(XY)t+E(X^2) E(XtY)2=E(X22tXY+t2Y2)=E(Y2)t22E(XY)t+E(X2)
由于 E ( X − t Y ) 2 ≥ 0 E(X-tY)^2\ge 0 E(XtY)20,因此其判别式 ≤ 0 \le0 0,即
Δ = 4 ( E X Y ) 2 − 4 ( E X 2 E Y 2 ) ≤ 0 ⇒ ∣ E X Y ∣ 2 ≤ E X 2 E Y 2 . \Delta=4(EXY)^2-4(EX^2EY^2)\le0\Rightarrow |EXY|^2\le EX^2EY^2. Δ=4(EXY)24(EX2EY2)0EXY2EX2EY2.
等号成立的条件是 P ( X − t Y = 0 ) = 1 P(X-tY=0)=1 P(XtY=0)=1,即 ∃ t 0 , X = t 0 Y \exist t_0,X=t_0Y t0,X=t0Y,而等号成立又对应着 ∣ r X Y ∣ = 1 |r_{XY}|=1 rXY=1的等号成立。因此,有以下结论:

  • r X Y = ± 1 r_{XY}=\pm1 rXY=±1代表随机变量 X , Y X,Y X,Y线性相关,当 r X Y > 0 r_{XY}>0 rXY>0时是正相关, r X Y < 0 r_{XY}<0 rXY<0时是负相关。
  • r X Y = 0 r_{XY}=0 rXY=0意味着 C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0,此时我们称 X , Y X,Y X,Y不相关
  • 一般相关系数的绝对值越大,随机变量之间的关系就越密切。

需要注意,不相关不同于独立,独立要求两个随机变量没有任何联系,即 P ( X ∣ Y ) = P ( X ) P(X|Y)=P(X) P(XY)=P(X),是更强的约束;而不相关仅仅要求二者协方差为0,是更弱的要求。只有在一些特殊情况下可以由不相关推出独立,而独立随机变量在任何情况下都是不相关的。今后,我们对不相关的讨论会更多。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值