漫步数理统计十八——相关系数

对于两个随机变量,我们这里用 X,Y 而不是 X1,X2 来表示结论,另外我们不在分开讨论连续与离散的情况,统一用连续符号,但是这些性质对离散情况也满足。令 X,Y 的联合pdf为 f(x,y) ,如果 u(x,y) x,y 的函数,那么 E[u(X,Y)] 存在的话就如前面讲的那样定义。我们假设这里讨论的数学期望均存在, X,Y 的均值 μ1,μ2 通过取 u(x,y) x,y 即可获得; X,Y 的方差 σ21,σ22 通过取 u(x,y) (xμ1)2,(yμ2)2 即可获得。考虑数学期望

E[(Xμ1)(Yμ2)]=E(XYμ2Xμ1Y+μ1μ2)=E(XY)μ2E(X)μ1E(Y)+μ1μ2=E(XY)μ1μ2

这个数称为 X,Y 的协方差,经常用 cov(X,Y) 表示。

如果 σ1,σ2 都是正的,那么

ρ=E[(Xμ1)(Yμ2)]σ1σ2=cov(X,Y)σ1σ2

称为 X,Y 的相关系数,注意两个随机变量相乘的期望值等于他们各自期望值相乘并加上他们的协方差;即 E(XY)=μ1μ2+ρσ1σ2=μ1μ2+cov(X,Y)

1 令随机变量 X,Y 的联合pdf为

f(x,y)={x+y00<x<1,0<y<1elsewhere

我们将计算 X,Y 的相关系数 ρ 接下里

μ1=E(X)=1010x(x+y)dxdy=712


σ21=E(X2)μ21=1010x2(x+y)dxdy(712)2=11144

同样的

μ2=E(Y)=712,σ22=E(Y2)μ22=11144

X,Y 的协方差为

E(XY)μ1μ2=1010xy(x+y)dxdy(712)2=1144

那么 X,Y 的相关系数为

ρ=1144(11144)(11144)=111

1 对一些两个随机变量的分布, X,Y ,相关系数 ρ 是该分布非常有用的特征。不幸的是, ρ 的正式定义没有揭示这个事实,现在我们观察一下 ρ ,更多的内容会在后面继续讲解。之后我们会看到如果两个随机变量的联合分布有相关系数(即如果方差都为正),那么 ρ 满足 1ρ1 ,如果 ρ=1 ,那么存在一条直线满足方程 y=a+bx,b>0 ,它的图像包含所有 X,Y 分布的概率,极端情况下我们有 P(Y=a+bX)=1 ,如果 ρ=1 ,我们有同样的情况除了 b<0 。这就引出下面的问题:当 ρ 不是这些极端值时,在 xy 平面内是否有一条直线使得 X,Y 的概率集中在这条线的窄带内?在某些限制条件下,的确如此,并且在这些条件下,我们可以将 ρ 作为 X,Y 的概率集中在直线上的聚集程度。

接下来令 f(x,y) 表示两个随机变量 X,Y 的联合pdf, f1(x) 表示 X 的边缘pdf,那么给定X=x Y 的条件pdf为

f2|1(y|x)=f(x,y)f1(x)

其中 f1(x)>0 ,给定 X=x Y 的条件均值为

E(Y|x)=yf2|1(y|x)dy=yf(x,y)dyf1(x)

当然这个条件期望是 x 的函数,用u(x)表示。同样的,给定 Y=y X 的条件均值为y的函数,用 v(y) 表示。

u(x) x 的线性函数时,u(x)=a+bx,我们说 Y 的条件均值关于x是线性的;或者 Y 是一个线性条件均值。

1假设 (X,Y) 有联合概率,且 X,Y 的方差为有限的正值, X,Y 的均值与方差分别表示成 μ1,μ2,σ21,σ22 ,令 ρ 表示 X,Y 的相关系数。如果 E(Y|X) X 上是线性的,那么

E(Y|X)=μ2+ρσ2σ1(Xμ1)


E(var(Y|X))=σ22(1ρ2)

这里给出的是连续情况,离散情况只需要将积分符号换成求和即可。令 E(Y|x)=a+bx ,从

E(Y|x)=yf(x,y)dyf1(x)=a+bx

我们有

yf(x,y)dy=(a+bx)f1(x)(1)

两边都对 x 进行积分可得

E(Y)=a+bE(X)

或者

μ2=a+bμ1(2)

其中 μ1=E(X),μ2=E(Y) 。如果等式1两边都乘以 x 并对x积分,那么

E(XY)=aE(X)+bE(X2)

或者

ρσ1σ2+μ1μ2=aμ1+b(σ21+μ21)(3)

其中 ρσ1σ2 X,Y 的协方差,联立等式2,3可得

a=μ2ρσ2σ1μ1b=ρσ2σ1

第一个等式得证。

Y 的条件方差为

var(Y|x)=[yμ2ρσ2σ1(xμ1)]2f2|1(y|x)dy=[yμ2ρσ2σ1(xμ1)]2f(y|x)dyf1(x)

这个方差是非负的且顶多是 x 的函数。然后两边乘以f1(x)并对 x 积分,则结果也是非负的,结果为

[yμ2ρσ2σ1(xμ1)]2f(y|x)dydx=[(yμ2)22ρσ2σ1(yμ2)(xμ1)+ρ2σ22σ21(xμ1)2]f(y|x)dydx=E[(Yμ2)2]2ρσ2σ1E[(Xμ1)(Yμ2)]+ρ2σ22σ21E[(Xμ1)2]=σ222ρσ2σ1ρσ1σ2+ρ2σ22σ21σ21=σ222ρ2σ22+ρ2σ22=σ22(1ρ2)

得证。 ||

注意如果方差用 k(x) 表示,那么 E[k(X)]=σ22(1ρ2)0 ,从而 ρ21 或者 1ρ1 。无论条件均值是否为线性, 1ρ1 均成立。

假设方差是正的但不是 x 的函数;即方差是一个常数k>0,那么如果用 k 乘以f1(x)然后在 x 上积分,结果为k使得 k=σ22(1ρ2) ,这时候给定 X=x Y 的条件分布方差都为σ22(1ρ2)。如果 ρ=0 ,那么其为 σ22 Y 的边缘分布方差。另一方面,如果ρ2接近1,那么给定 X=x Y 的条件分布方差非常小,这个条件分布的概率高度聚集在均值E(Y|x)=μ2+ρ(σ2/σ1)(xμ1),如果 E(X|y) 是线性的话,这些结论都成立。特别地, E(X|y)=μ1+ρ(σ1/σ2)(yμ2),E[var(X|y)]=σ21(1ρ2)

2 令随机变量 X,Y 有线性的条件均值 E(Y|x)=4x+3,E(X|y)=116y3 ,根据线性条件均值的一般公式,如果 x=μ1 ,我们有 E(Y|x)=μ2 ,如果 y=μ2 E(X|y)μ1 。那么对于这种情况,我们有 μ2=4μ1+3,μ1=116μ23 ,故 μ1=154,μ2=12 。线性条件均值的一般公式也说明了 x,y 系数的乘积等于 ρ2 ,这些系数商等于 σ22/σ21 ,这里 ρ2=4(116)=14 ,其中 ρ=12,σ22/σ21=64 ,因此从两个线性均值中,我们能找出 μ1,μ2,σ2/σ1 的值,但是不能求出 σ1,σ2 的值。

3 为了说明相关系数如何度量 X,Y 对一条线概率的集中程度,令随机变量在图2所示的区域均匀分布,即 X,Y 的联合pdf为

f(x,y)={14ah0a+bx<y<a+bx,h<x<helsewhere

这里我们假设 b0 ,但是当 b0 时可以修饰论点。很容易说明 X 的pdf是均值的,即

f1(x)={a+bxa+bx14ahdy=12h0h<x<helsewhere


这里写图片描述
图2

条件均值与方差为
E(Y|x)=bx,var(Y|x)=a23

从上面证明的过程可知

b=ρσ2σ1,a23=σ22(1ρ)

另外我们知道 σ21=h2/3 。如果我们求解这是三个方程,可以得到关系系数的表示式,即

ρ=bha2+b2h2

参照图2,我们可以发现:

  1. a 变小(大),直线效果更加(更不)激烈,ρ越接近1(0)。
  2. h 变大(小),直线效果更加(更不)激烈,ρ越接近1(0)。
  3. b 变大(小),直线效果更加(更不)激烈,ρ越接近1(0)。

回顾之前介绍的随机向量 (X,Y) 的mgf,对于随机变量,联合mgf也给出了某个矩的显式公式。对于连续类型的随机变量,

k+mM(t1,t2)tk1tm2=xkymet1x+t2yf(x,y)dxdy

这样的话

k+mM(t1,t2)tk1tm2t1=t2=0=xkymf(x,y)dxdy=E(XkYm)

例如考虑简单的符号,上面的情况就非常清楚了

μ1=E(X)=M(0,0)t1,μ2=E(Y)=M(0,0)t2σ21=E(X2)μ21=2M(0,0)t21μ21,σ22=E(Y2)μ22=2M(0,0)t22μ22,E[(Xμ1)(Yμ2)]=2M(0,0)t1t2μ1μ2

据此我们可以计算出相关系数 ρ

显然,如果 X,Y 是离散类型的随机变量,那么结论依然成立。因此如果联合分布的mgf可以得到的话,可以用它计算出相关系数,如下例所示。

4 考虑联合密度

f(x,y)={ey00<x<y<elsewhere

对于 t1+t2<1,t2<1 而言,其mgf为

M(t1,t2)=1(1t1t2)(1t2)

对于该分布可得

μ1=1,μ2=2σ21=1,σ22=2E[(Xμ1)(Yμ2)]=1

那么 X,Y 的相关系数为 ρ=1/2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值