对于两个随机变量,我们这里用
X,Y
而不是
X1,X2
来表示结论,另外我们不在分开讨论连续与离散的情况,统一用连续符号,但是这些性质对离散情况也满足。令
X,Y
的联合pdf为
f(x,y)
,如果
u(x,y)
是
x,y
的函数,那么
E[u(X,Y)]
存在的话就如前面讲的那样定义。我们假设这里讨论的数学期望均存在,
X,Y
的均值
μ1,μ2
通过取
u(x,y)
为
x,y
即可获得;
X,Y
的方差
σ21,σ22
通过取
u(x,y)
为
(x−μ1)2,(y−μ2)2
即可获得。考虑数学期望
这个数称为 X,Y 的协方差,经常用 cov(X,Y) 表示。
如果
σ1,σ2
都是正的,那么
称为 X,Y 的相关系数,注意两个随机变量相乘的期望值等于他们各自期望值相乘并加上他们的协方差;即 E(XY)=μ1μ2+ρσ1σ2=μ1μ2+cov(X,Y) 。
例1:
令随机变量
X,Y
的联合pdf为
我们将计算
X,Y
的相关系数
ρ
接下里
且
同样的
X,Y
的协方差为
那么
X,Y
的相关系数为
注1: 对一些两个随机变量的分布, X,Y ,相关系数 ρ 是该分布非常有用的特征。不幸的是, ρ 的正式定义没有揭示这个事实,现在我们观察一下 ρ ,更多的内容会在后面继续讲解。之后我们会看到如果两个随机变量的联合分布有相关系数(即如果方差都为正),那么 ρ 满足 −1≤ρ≤1 ,如果 ρ=1 ,那么存在一条直线满足方程 y=a+bx,b>0 ,它的图像包含所有 X,Y 分布的概率,极端情况下我们有 P(Y=a+bX)=1 ,如果 ρ=−1 ,我们有同样的情况除了 b<0 。这就引出下面的问题:当 ρ 不是这些极端值时,在 xy 平面内是否有一条直线使得 X,Y 的概率集中在这条线的窄带内?在某些限制条件下,的确如此,并且在这些条件下,我们可以将 ρ 作为 X,Y 的概率集中在直线上的聚集程度。
接下来令
f(x,y)
表示两个随机变量
X,Y
的联合pdf,
f1(x)
表示
X
的边缘pdf,那么给定
其中
f1(x)>0
,给定
X=x
,
Y
的条件均值为
当然这个条件期望是
x
的函数,用
当
u(x)
是
x
的线性函数时,
且
证明:
这里给出的是连续情况,离散情况只需要将积分符号换成求和即可。令
E(Y|x)=a+bx
,从
我们有
两边都对
x
进行积分可得
或者
其中
μ1=E(X),μ2=E(Y)
。如果等式1两边都乘以
x
并对
或者
其中
ρσ1σ2
是
X,Y
的协方差,联立等式2,3可得
第一个等式得证。
Y
的条件方差为
这个方差是非负的且顶多是
x
的函数。然后两边乘以
得证。 ||
注意如果方差用 k(x) 表示,那么 E[k(X)]=σ22(1−ρ2)≥0 ,从而 ρ2≤1 或者 −1≤ρ≤1 。无论条件均值是否为线性, −1≤ρ≤1 均成立。
假设方差是正的但不是
x
的函数;即方差是一个常数
例2: 令随机变量 X,Y 有线性的条件均值 E(Y|x)=4x+3,E(X|y)=116y−3 ,根据线性条件均值的一般公式,如果 x=μ1 ,我们有 E(Y|x)=μ2 ,如果 y=μ2 , E(X|y)μ1 。那么对于这种情况,我们有 μ2=4μ1+3,μ1=116μ2−3 ,故 μ1=−154,μ2=−12 。线性条件均值的一般公式也说明了 x,y 系数的乘积等于 ρ2 ,这些系数商等于 σ22/σ21 ,这里 ρ2=4(116)=14 ,其中 ρ=12,σ22/σ21=64 ,因此从两个线性均值中,我们能找出 μ1,μ2,σ2/σ1 的值,但是不能求出 σ1,σ2 的值。
例3:
为了说明相关系数如何度量
X,Y
对一条线概率的集中程度,令随机变量在图2所示的区域均匀分布,即
X,Y
的联合pdf为
这里我们假设
b≥0
,但是当
b≤0
时可以修饰论点。很容易说明
X
的pdf是均值的,即
图2
条件均值与方差为
从上面证明的过程可知
另外我们知道
σ21=h2/3
。如果我们求解这是三个方程,可以得到关系系数的表示式,即
参照图2,我们可以发现:
- 当
a
变小(大),直线效果更加(更不)激烈,
ρ 越接近1(0)。 - 当
h
变大(小),直线效果更加(更不)激烈,
ρ 越接近1(0)。 - 当
b
变大(小),直线效果更加(更不)激烈,
ρ 越接近1(0)。
回顾之前介绍的随机向量
(X,Y)
的mgf,对于随机变量,联合mgf也给出了某个矩的显式公式。对于连续类型的随机变量,
这样的话
例如考虑简单的符号,上面的情况就非常清楚了
据此我们可以计算出相关系数 ρ 。
显然,如果 X,Y 是离散类型的随机变量,那么结论依然成立。因此如果联合分布的mgf可以得到的话,可以用它计算出相关系数,如下例所示。
例4:
考虑联合密度
对于
t1+t2<1,t2<1
而言,其mgf为
对于该分布可得
那么 X,Y 的相关系数为 ρ=1/2√ 。