简介
协方差:Covariance 在概率论和统计学中,用于衡量两个变量的总体误差。而我们之前学过的方差是协方差的一种特殊情况,即当两个变量是相同的时候,协方差就变成了方差。
协方差表示的是两个变量的总体误差,这与只表示一个变量误差的方差不同。
协方差具有如下特点:
1)如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。
2)如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么连个变量之间的协方差就是负值。
定义
期望值分别为E[X]和E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:
从直观上来看,协方差表示的是两个变量总体误差的期望。
- 如果X与Y是统计独立的,那么两者之间的协方差就是0,因为两个独立的随机变量满足E(X,Y) = E[X]E[Y]。
但是反过来并不成立。即如果两个变量X与Y的协方差为0,二者并不一定是统计独立的。
协方差为0的两个随机变量称为是不相关的。 - 协方差Cov(X,Y)的度量单位是X的协方差乘以Y的协方差。
协方差的性质:
- 如果两个随机变量X和Y是相互独立的,则E[(X-E(X))(Y-E(Y))] = 0,因而若上述数学期望不为零,则X和Y必然是不相互独立的,即他们两者之间是存在一定的关系的。
- 协方差与方差之间的关系:
D(X+Y) = D(X) + D(Y) + 2Cov(X,Y)
D(X-Y) = D(X) + D(Y) - 2Cov(X,Y) - 协方差与期望有如下的关系:
Cov(X,Y) = E(XY)-E(X)E(Y)。 - 自身性质
(1)Cov(X,Y) = Cov(Y,X);
(2)Cov(aX,bY) = abCov(X,Y),(a,b是常数);
(3)Cov(X1+X2,Y) = Cov(X1,Y) + Cov(X2,Y);
(4)Cov(X + a,Y + b) = Cov(X,Y); - 由协方差的定义可知:
Cov(X,X) = D(X) ,Cov(Y,Y) = D(Y); - 协方差作为描述X和Y相关程度的量,在同一物理量下面有一定的作用,但是对于两个不同量纲的变量来讲,他们的协方差在数值上表现出很大的差异。为此引入如下概念:
定义
称为随机变量X和Y的(Pearson)相关系数。
定义,若ρxy = 0,则称X与Y不线性相关。即ρxy = 0的充分必要条件是Cov(X,Y) = 0,亦即不线性相关与方差为零时等价的。 - 定理:
设ρxy 是随机变量X与Y的相关系数,则有
(1) |ρxy| ≤ 1;
(2) |ρxy| = 1 充分必要条件为P{Y=aX + b} = 1,(a,b为常数,a≠0); - 定义
设X和Y是随机变量,
若E(X^k), k = 1,2,…存在,则称它为X的k阶原点矩;
若E{[X - E(X)]^k}, k = 1,2,…存在,则称它为X的k阶中心矩;
若E{[X - E(X)]^k * [X - E(X)]^I}, k = 1,2,…存在,则称它为X和Y的K+I 阶混合中心矩;
显然,X的数学期望E(X)是X的一阶原点矩,方差D(X)是X的二阶中心矩,协方差Cov(X,Y)是X和Y的二阶混合中心矩。
对于随机变量序列X1,X2,…Xn与Y1,Y2,…Ym,有
对于随机变量序列X1,X2,…Xn,有
(没搞明白!!!)
矩阵
分别为m和n个标量元素的列向量随机变量X与Y,这两个变量之间的协方差定义为m x n 矩阵,其中X包含随机变量X1,X2,…Xm,Y包含随机变零Y1,Y2,…Yn,假设X1的期望值为μ1,Y2的期望值为v2,那么在协方差矩阵中(1,2) 的元素就是X1 和 Y2的协方差。
两个向量变量的协方差Cov(X,Y)与Cov(Y,X)互为转置矩阵。
协方差有时候也被称为两个随机变量之间“线性独立性”的度量,但是这个含义与线性代数中严格的线性独立性不同???