一. 协方差
A. 定义
协方差用于衡量两个变量的总体误差,方差是协方差的一种特殊情况,即当两个变量是相同的情况D(X)=Cov(X,Y)。
期望值分别为E(X),E(Y)的两个实数随机变量X与Y之间的协方差定义为:
Cov(X,Y) = E((X-E[X])(Y-E[Y])) = E(XY) - 2E(X)E(Y) + E(X)E(Y) = E(XY) - E(X)E(Y) (1)
如果X与Y是统计独立的,那么两者之间的协方差为0,因为两个独立的随机变量满足E(XY)=E(X)E(Y)。
但是,如果协方差为0,二者并不一定是统计独立的!
协方差为0的两个随机变量称为是不相关的。
对于两个正态随机变量,协方差为0和两个正态随机变量相互独立是充要条件。
B. 性质
协方差与方差之间有如下关系:
D(X+Y) = D(X)+D(Y)+2*Cov(X,Y);
D(X-Y) = D(X)+D(Y)-2*Cov(X,Y);
D(X) = Cov(X,X) = E(X^2) - E(X)E(X); =>E(X^2) = D(X)+E(X)E(X);
协方差性质:
Cov(X,Y) = Cov(Y,X);
Cov(aX,bY) = abCov(X,Y);
Cov(X1+X2,Y) = Cov(X1,Y)+Cov(X2,Y);
二. 相关系数
A. 定义
协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但是同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。为此引入相关系数,用来研究变量之间线性相关程度的量。
(2)
我们可以通过求Cov(X,Y)来求得相关系数。
B.补充定义:
设X,Y是随机变量,若E(X^k), k=1,2,...存在,则称它为X的k阶原点矩,简称k阶矩;
若E(X-E(X)^k), k=1,2,...存在,则称它为X的k阶中心矩;
若E((X^k)(Y^p)), k,p=1,2,...存在,则称它为X和Y的k+p阶混合原点矩;
若E((X-E(X))^k(Y-E(Y))^p),k,p=1,2,...存在,则称它为X和Y的k+p阶混合中心距;
E(X)是X的一阶原点矩,D(X)是X的二阶中心距,Cov(X,Y)是X和Y的二阶混合中心距;
三. 对于两个分布的相关系数求解过程
1.如果知道两个变量的联合概率密度函数f(x,y)
通过f(x,y)在dy上的积分,可以求得X的边缘分布密度:
(3)
此时通过边缘分布求的X的期望E(X):
(4)
然后通过D(X) = E(X^2)-E(X)E(X)求得D(X)。这里E(X^2)同理可以通过边缘分布求得: (5)
同理我们可以求得E(Y)和D(Y)。
对于E(XY),通过对x*y*f(x,y)进行积分即可
(6)
最后带入公式(1)(2)求得相关系数;
2.仅仅知道两个变量的概率分布,比如X~N(0,1),Y~N(0,1),求两个变量的相关系数:
此时需要通过两个概率分布来随机抽样,并对样本进行统计得到二维变量(X,Y)的联合概率分布,假设如下:
则E(XY) = -1*-1*0.07 + ... + 1*1*0.07 = -0.01
通过样本可以估计出E(XY),所以根据样本大小,E(XY)是有误差的一个估计。当样本量很大时,E(XY)近似等于X,Y的联合均值。
此时通过(1)(2)求得相关系数。