本文摘自《概率论和数理统计》 陈希孺著 中国科学技术大学出版社
协方差和相关系数
现在我们来考虑多维随机向量的数字特征。以二维的情况为例,设
(X,Y)
为二维随机向量。
X,Y
本身都是一维随机变量,可以定义为其均值、方差,在本文中我们记
E(X)=m1,E(Y)=m2,Var(X)=σ21,Var(Y)=σ22
协方差定义
我们称
E[(X−m1)(Y−m2)]
为
X,Y
的协方差,并记为
Cov(X,Y)∗
。
“协”即“协同”的意思。
X
的方差是
Cov(c1X+c2,c3Y+c4)=c1c3Cov(X,Y) 公式(1)
又易知:
Cov(X,Y)=E(XY)−m1m2 公式(2)
这些简单的证明就不在这里证明了。
协方差的重要性质
定理1
- 若 X,Y 独立,则 Cov(X,Y)=0
- [Cov(X,Y)]2≤σ21σ22 。等号成立仅当 X,Y 之间有严格的线性关系(即存在常熟 a,b ,使得 Y=a+bX )时成立。
证明1
因为当 X,Y 独立的时候, E(XY)=m1m2 ,且 Cov(X,Y)=E(XY)−m1m2 ,故 Cov(XY)=m1m2−m1m2=0 。
证明2
预备小知识:
- 若
a,b,c
为常数,
a>0
,而二次三项式
at2+2bt+c
对
t
任何实值都非负,则必有
ac≥b2 。(二次函数没有实根 ) - 如果随机变量
Z
只能够非负值,而
E(Z)=0 ,则 Z=0 。
证明小知识1:注意到若 ac<b2 ,则 at2+2bt+c=0 有两个不同的实根 t1<t2 ,因而 at2+2bt+c=a(t−t1)(t−t2) 。取 t0 使 t1<t0<t2 ,则有 at20+2bt0+c=a(t−t0)(t0−t2)<0 ,与 at2+2bt+c 对任何 t 非负矛盾。这就证明了小知识的第一点。
证明小知识2:若
现考虑:
E[t(X−m1)+(Y−m2)]2=σ21t2+2Cov(X,Y)t+σ22 公式(3)
由于此等式左边是一个非负随机变量的均值,故它对任何
t
非负。按预备知识1,有
进一步,如果公式(4)等号成立,则公式(3)右边等于
(σ1t±σ2)2
。
±
号视
Cov(X,Y)>0
或
<0
<script type="math/tex" id="MathJax-Element-21936">< 0</script>而定,为确定符合,暂设
Cov(X,Y)>0
,则公式(3)右边为
(σ1t+σ2)2
。此式在
t=t0=−σ2/σ1
时为0。以
t=t0
带入公式(3),有:
E[t0(X−m1)+(Y−m2)]2=0
再按预备知识2,即知 t0(X−m1)+(Y−m2)=0 ,因而 X,Y 之间有严格线性关系。
反之,若
X,Y
之间有严格线性关系
Y=aX+b
,则
σ22=Var(Y)=Var(aX+b)=Var(aX)=a2Var(X)=a2σ21 ,
且
m2=E(Y)=aE(X)+b=am1+b ,
因而有
Y−m2=(aX+b)−(am1+b)=a(X−m1) 。
于是
Cov(X,Y)=E[(X−m1)a(X−m1)]=a[E(X−m1)]=aσ21
因此,
[Cov(X,Y)]2=a2σ4=σ21(a2σ2)=σ21σ22
即公式(4)等号成立,这就证明了定理1中第2个知识点的全部结论。
相关系数定义
定义:我们把
Cov(X,Y)σ1σ2
称为
X,Y
的相关系数,并记为
Corr(X,Y)∗
。
形式上可以把相关系数视为“标准尺度下的协方差”。变量
X,Y
的协方差作为
(X−m1)(Y−m2)
的均值,依赖于
X,Y
的度量单位,选择适当单位使
X,Y
的方差都为1,这协方差就是相关系数。这样就能更好地反应
X,Y
之间的关系,不受单位影响。
定理
- 若 X,Y 独立,则 Corr(X,Y)=0 。
-
−1≤Corr(X,Y)≤1
,或
∣Corr(X,Y)∣≤1
,等号当且仅当
X
和
Y 有严格的线性关系时能达到。
相关解释:
第一条
当 Corr(X,Y)=0 ,(或 Cov(X,Y)=0 一样)时,称“ X,Y 不相关”。本定理1说明由 X,Y 的独立性推出他们的不相关。但反过来一般不成立:由 Corr(X,Y)=0 不一定有 X,Y 独立。下面是一个简单的例子。
例子:
设
(X,Y)
服从单位圆内的均匀分布,即其密度函数为:
由于
x,y
是对称的,故他们拥有相同的概率密度函数。概率密度函数的求法请往下找,这里为了排版美观将其内容放在下方。由于
X,Y
拥有相同的边缘密度函数,所以我们只求一个就可以了:
这个函数关于0对称,因此其均值为0,故
E(X)=E(Y)=0
。而
Cov(X,Y)=E(XY)−m1m2=E(XY)=1π∬xydxdyx2+y2<1 =0
故 Corr(X,Y)=0 。但 X,Y 不独立,因为联合密度 f(x,y) 不等于其边缘密度之积 g(x)g(y) 。
第二条
相关系数也常称为“线性相关系数”。这是因为,实际上相关系数并不是刻画了
X,Y
之间“一般”关系的程度,而只是“线性关系的程度。这种说法的根据之一就在于,当且仅当
X,Y
具有严格的线性关系时,才有
∣Corr(X,Y)∣
达到最大值1.可以容易举出例子说明:即使
X
与
例子:
设
X∼R(−12,12)
,即区间
[−12,12]
内均匀分布,而
Y=cosX
,
Y
与
Cov(X,Y)=E(XY)−m1m2=E(XY)=E(XcosX)=∫1/2−1/2xcosxdx=0
故, Corr(X,Y)=0 。虽然求出来的相关系数为0,也就是所谓的“不相关”,它们之间确有着严格的关系 Y=cosX 。足见这样的相关只能指线性而言,一超出了这个范围,这个概念就失去了意义。
第三条
如果
0<∣Corr(X,Y)∣<1
,则解释为:
X,Y
之间有“一定程度的”线性关系而非严格的线性关系。何谓“一定程度”的线性关系?我们可以用下面的图来说明一下。在这三幅图中,我们都假定
(X,Y)
服从所画区域A内的均匀分布(即联合概率密度
f(x,y)
在A内为
∣A∣−1
,在A外为0,
∣A∣
为区域A的面积)。在这三张图中,
X,Y
都没有严格的线性关系,因为由
X
的值不能决定
边缘密度函数
概率密度函数的求法如下:设
X=(X1,⋯,Xn)
有概率密度函数
f(x1,⋯,xn)
,为求分量
Xi
的概率密度函数,只需要把
f(x1,⋯,xn)
中的
xi
固定,然后对
x1,⋯,xi−1,xi+1,⋯,xn
在
−∞
到
+∞
之间做定积分。例如,
X1
的概率密度函数为:
f1(x1)=∫+∞−∞⋯∫+∞−∞f(x1,x2,⋯,xn)dx2⋯dxn