协方差与相关系数介绍

最新推荐文章于 2021-10-03 17:00:00 发布

置顶积跬步以至千里。

最新推荐文章于 2021-10-03 17:00:00 发布

阅读量1.5k

点赞数 12

分类专栏：概率论与数理统计文章标签：协方差统计学人工智能机器学习概率论

本文链接：https://blog.csdn.net/spiritedaway1106/article/details/107332318

版权

概率论与数理统计专栏收录该内容

14 篇文章 23 订阅

订阅专栏

文章目录

- - 1. 协方差
  - 2. 相关系数

1. 协方差

定义

量 $E\{[X-E(X)][Y-E(Y)]\}$ 称为随机变量 $X$ 与 $Y$ 的协方差。记为 $C o v (X, Y)$ ,即 $Cov(X,Y) = E\{[X-E(X)][Y-E(Y)]\}$
$1)$ 由定义很容易知道 $C o v (X, Y) = C o v (Y, X) ， C o v (X, X) = D (X)$
$2)$ 我们在介绍方差时，有性质 $D(X+Y)=D(X)+D(Y)+2E\{[X-E(X)][Y-E(Y)]\} = D(X)+D(Y)+2Cov(X,Y)$
$3)$ 往往使用下面的式子计算协方差的值 $Cov(X,Y) = E\{[X-E(X)][Y-E(Y)]\} = E(XY)-E(X)E(Y)$
性质

$1^o \quad Cov(aX,bY) = abCov(X,Y), a、b$ 为常数

证明

$C o v (a X, b Y) = E (a X b Y) - E (a X) E (b Y) = a b [E (X Y) - E (X) E (Y)] = a b C o v (X, Y)$

$2^o \quad Cov(X_1+X_2,Y)= Cov(X_1,Y)+Cov(X_2,Y)$

证明

$Cov(X_1+X_2,Y)= E[(X_1+X_2)Y-E(X_1+X_2)E(Y) = E(X_1Y)+E(X_2Y)-E(X_1)E(Y)-E(X_2)E(Y)=Cov(X_1,Y)+Cov(X_2,Y)$

2. 相关系数

定义

协方差反映了变量之间的某种线性关系，但是这个关系结果会受到度量单位的影响，举个简单的例子， $X$ 表示一些人的身高， $Y$ 表示这些人的体重，我们想知道身高和体重的关系，如果身高使用单位为 $c m$ ，当体重用 $k g$ 和 $g$ 时会得到数值完全不同的关系数值，为了消除这种影响，我们需要对随机变量 $X, Y$ 进行标准化就可以了，则令 $X^* = \frac{X-E(X)}{\sqrt{D(X)}}，Y^* = \frac{Y-E(Y)}{\sqrt{D(Y)}}$ ，此时有 $\begin{aligned}Cov(X^*,Y^*) &= E(X^*Y^*)-E(X^*)E(Y^*) \\&= E[\frac{X-E(X)}{\sqrt{D(X)}}\frac{Y-E(Y)}{\sqrt{D(Y)}}]-E(\frac{X-E(X)}{\sqrt{D(X)}})E(\frac{Y-E(Y)}{\sqrt{D(Y)}}) \\&= \frac{E\{[X-E(X)][Y-E(Y)]\}}{\sqrt{D(X)}\sqrt{D(Y)}}-0 = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}\end{aligned}$

我们称 $\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}，$ 为随机变量 $X$ 与 $Y$ 的相关系数
性质

$1^o \quad |\rho_{XY}|\leq1.$

证明：

考虑以 $X$ 的线性函数 $a + b X$ 来近似表示 $Y$ ，以均方误差 $e = E[Y-(a+bX)]^2$ 来表示以 $a + b X$ 近似表达 $Y$ 的好坏程度，很明显， $e$ 越小，说明 $a + b X$ 与 $Y$ 的近似程度越高，由此我们的目标变为计算均方误差 $e$ 的最小值。求解过程如下

$\begin{aligned} e &= E[Y-(a+bX)]^2 = E(Y^2+a^2+b^2X^2+2abX-2aY-2bXY)\\&=E(Y^2)+b^2E(X^2)+2abE(X)-2aE(Y)-2bE(XY)+a^2\\ & \end{aligned}$

将 $e$ 分别对 $a, b$ 求偏导并令它们等于 $0$ ，得到

$\begin{cases} \frac{\partial e}{\partial a} = 2a + 2bE(X) - 2E(Y) = 0 \\ \\ \frac{\partial e}{\partial b} = 2bE(X^2)+2aE(X)-2E(XY) = 0 \end{cases}$

很容易解得 $b_0 = \frac{Cov(X,Y)}{D(X)}$ （方程组中式 $2 -$ 式 $1 * E (X)$ ）， $a_0=E(Y)-b_0E(X) = E(Y)-E(X)\frac{Cov(X,Y)}{D(X)}$

$\begin{aligned} \therefore \min_{a,b}e &= E[Y-(a_0+b_0X)]^2 = D(Y-a_0-b_0X)+\{E[Y-a_0-b_0X]\}^2\\&=D(Y)+b_0^2D(X)-2b_0Cov(X,Y) + [E(Y)-a_0-b_0E(X)]^2 \\&=D(Y)+ \frac{[Cov(X,Y)]^2}{D(X)}- \frac{2[Cov(X,Y)]^2}{D(X)} + \bigg[-\frac{1}{2}\frac{\partial e}{\partial a}\bigg|_{a=a_0, b=b_0}\bigg]^2 \\&= D(Y)\{1- \frac{[Cov(X,Y)]^2}{D(X)D(Y)}\}+0 \\&= (1-\rho_{XY}^2)D(Y) \end{aligned}$

$\because [Y-(a+bX)]^2 \geq0 \quad \therefore E(e)\geq0 , 因此有 (1-\rho_{XY}^2)D(Y) \geq0,而 D(Y)\geq0\\ \therefore 1-\rho_{XY}^2 \geq 0 \quad即 \quad |\rho_{xy}|\leq1.$

十分推荐这种方法来证明 $|\rho_{XY}|\leq1$ ，原因是这种证明方式，很清楚的表达了 $\rho_{XY}$ 的含义，当 $|\rho_{XY}|$ 较大时，均方误差 $e$ 较小，表示 $X, Y$ 的线性关系越紧密。不仅如此，该证明方式还给出了，均方误差 $e$ 最小时， $a, b$ 的取值，也就很明确了随机变量 $X, Y$ 之间的线性关系。

证明方法二：

利用柯西 $-$ 施瓦兹不等式进行证明，对于两个随机变量 $V, W$ ，若 $E(V^2),E(W^2)$ 存在，则 $E(VW)^2\leq E(V^2)E(W^2) ,$ 这个不等式称为柯西 $\pmb -$ 施瓦兹不等式

我们先证明这个不等式：

令 $g(t)=E[(V+tW)^2] = t^2E(W^2)+ 2tE(VW) +E(V^2)$

则 $g(t)\geq0$ 必然成立，即有 $t^2E(W^2)+ 2tE(VW) +E(V^2) \geq0$ 恒成立，这里将 $g (t)$ 看做是关于 $t$ 的抛物线，高中知识就知道，要满足抛物线大于等于 $0$ 成立，需要 $\Delta = b^2-4ac = [2E(VW)]^2-4E(W^2)E(V^2)\leq 0$ 即 $E(VW)^2\leq E(V^2)E(W^2)$ 恒成立，因此柯西 $-$ 施瓦兹不等式得到证明。

下面利用柯西 $-$ 施瓦兹不等式证明 $|\rho_{xy}|\leq1$

$\begin{aligned} \rho_{XY} &= \frac{Cov(X,X)}{\sqrt{D(X)}\sqrt{D(Y)}} \end{aligned}$ 我们要利用柯西 $-$ 施瓦兹不等式进行证明，因此考虑两边同时取平方，此时有

$\begin{aligned} \rho_{xy}^2 &= \frac{[Cov(X,Y)]^2}{D(X)D(Y)} = \frac{\{E[X-E(X)][Y-E(Y)]\}^2}{D(X)D(Y)} \\&\leq \frac{E[X-E(X)]^2E[Y-E(Y)]^2}{D(X)D(Y)} = \frac{D(X)D(Y)}{D(X)D(Y)} = 1 \\ \therefore |\rho_{XY}|\leq1 \end{aligned}$

$2^o \quad |\rho_{XY}|=1.$ 的充要条件是存在常数 $a, b$ 使 $P\{Y=a+bX\}=1$

证明

$\quad$ 已知 $|\rho_{XY}|=1$

我们在证明性质 $1$ 时知道，

$\begin{aligned} &E[Y-(a_0+b_0X)]^2 =D(Y-a_0-b_0X)+\{E[Y-a_0-b_0X]\}^2= 0 \\&\because D(Y-a_0-b_0X) \geq0 \quad \{E[Y-a_0-b_0X]\}^2 \geq0 \\ &\therefore D(Y-a_0-b_0X) = 0 \quad E[Y-a_0-b_0X] = 0\end{aligned}$

由方差性质可知，有 $P\{Y-a_0-b_0X=E(Y-a_0-b_0X)\} = 1$ 即 $P\{Y-a_0-b_0X=0\} = 1$

$\therefore \quad$ 存在常数 $a, b$ 使 $P\{Y=a+bX\}=1$

$\quad$ 已知存在常数 $a, b$ ,设为 $a_0,b_0$ 使 $P\{Y=a_0+b_0X\}=1$ 。

由方差性质可知， $D(Y-a_0-b_0X) = 0$

$\because P\{Y=a_0+b_0X\}=1 \quad \therefore E(Y-a_0-b_0X) = 0,\ \quad P\{[Y-a_0-b_0X]^2=0\}=1 \\\therefore E\{[Y-a_0-b_0X]^2\} = 0 \quad \therefore D(Y-a_0-b_0X) = E[Y-(a_0+b_0X)]^2- \{E[Y-a_0-b_0X]\}^2 = 0-0 = 0\\\therefore D(Y-a_0-b_0X)=D(Y)+b_0^2D(X)-2b_0Cov(X,Y) = 0$

令 $g(b) = D(Y)+b^2D(X)-2bCov(X,Y)$ ，应满足 $\Delta = [-2Cov(X,Y)]^2-4D(X)D(Y) \geq0.$ 即 $\rho_{XY}^2\geq1$

由性质 $1^o (|\rho_{XY}|\leq1)$ 可知，此时有 $|\rho_{XY}|=1$ 成立

该性质表明随机变量 $X, Y$ 之间以概率 $1$ 存在着线性关系，当 $|\rho_{XY}|$ 较大时，通常说 $X, Y$ 的线性相关程度较好；反之，则说 $X, Y$ 的线性相关程度较差
特殊的相关系数值
- 当 $\rho_{XY} = 0$ 时，表示 $X, Y$ 没有线性关系，注意这里是没有线性关系，没有说不可以有非线性关系
- 当 $\rho_{XY} > 0$ 时，表示 $X, Y$ 正相关
- 当 $\rho_{XY} = 1$ 时，表示 $X, Y$ 完全正相关
- 当 $\rho_{XY} < 0$ 时，表示 $X, Y$ 负相关
- 当 $\rho_{XY} = -1$ 时，表示 $X, Y$ 完全负相关

相关与独立

两个变量独立，此时有 $C o v (X, Y) = E (X Y) - E (X) E (Y) = 0,$ 所以有 $\rho_{XY}=0$ ,即 独立一定不相关

两个随机变量不相关，此时虽然有 $\rho_{XY}=0$ 但却不一定独立。字面理解的话，就是当 $\rho_{XY} = 0$ 时，表示 $X, Y$ 没有线性关系，注意这里是没有线性关系，没有说不可以有非线性关系

下面给出一个两个随机变量不相关，也不独立的例子，加深理解

$Y / X$	$- 2$	$- 1$	$1$	$2$
$1$	$0$	$\frac{1}{4}$	$\frac{1}{4}$	$0$
$4$	$\frac{1}{4}$	$0$	$0$	$\frac{1}{4}$

由表格可知

$-2*\frac{1}{4}+(-1)*\frac{1}{4}+1*\frac{1}{4}+2*\frac{1}{4} = 0. \quad E(Y) = 1*(0+\frac{1}{4}+\frac{1}{4}+0)+4*(\frac{1}{4}+0+0+\frac{1}{4}) = 2.5 \\E(XY) = (1*-2)*0+(-2*4)*\frac{1}{4}+(-1*1)*\frac{1}{4}+(-1*4)*0+(1*1)\frac{1}{4}+(1*4)*0+(1*2)*0+(2*4)*\frac{1}{4} = 0 \\ 则 \rho_{XY}=0$

$\because \quad P\{X=-2,Y=1\} = 0 \neq P\{X=-2\}*P\{Y=1\} \quad$ ，因此随机变量 $X, Y$ 并不独立。

特例，设 $(X, Y)$ 服从二维正态分布，记作 $(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$ ,其中 $\mu_1,\mu_2,\sigma_1,\sigma_2,\rho$ 均为常数，且 $\sigma_1>0,\sigma_2>0,-1<\rho<1.$ 则 $X, Y$ 的不相关与独立是等价的

证明

$(X, Y)$ 服从二维正态分布，则

$\begin{aligned} &f(x,y) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp{\{\frac{-1}{2(1-\rho^2)}[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}]\}}\end{aligned} \\ \begin{aligned}f_X(x) &=\int_{-\infty}^{+\infty}f(x,y)dy = \int_{-\infty}^{+\infty}\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp{\{\frac{-1}{2(1-\rho^2)}[(\frac{y-\mu_2}{\sigma_2}-\rho\frac{x-\mu_1}{\sigma_1})^2+(1-\rho^2)\frac{(x-\mu_1)^2}{\sigma_1^2}]\}}dy\\ &=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}\int_{-\infty}^{+\infty}e^{\frac{-1}{2(1-\rho^2)}(\frac{y-\mu_2}{\sigma_2}-\rho\frac{x-\mu_1}{\sigma_1})^2}dy \quad \\&令 t = \frac{1}{\sqrt{1-\rho^2}}(\frac{y-\mu_2}{\sigma_2}-\rho\frac{x-\mu_1}{\sigma_1}) ,则dy = \sigma_2\sqrt{1-\rho^2}dt \\\therefore \quad f_X(x) &=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}\sigma_2\sqrt{1-\rho^2}\int_{-\infty}^{+\infty}e^{-\frac{t^2}{2}}dt\\& = \frac{1}{2\pi\sigma_1}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}\sqrt{2\pi}\\&=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}\\ 同理 f_Y(y) &=\frac{1}{\sqrt{2\pi}\sigma_2}e^{-\frac{(y-\mu_2)^2}{2\sigma_2^2}} \end{aligned}$

因此，我们知道二维正态分布的边缘分布为一维正态分布，有 $\mu_1,E(Y)=\mu_2,D(X)=\sigma_1^2,D(Y)=\sigma_2^2$

$\begin{aligned} Cov(X,Y) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}(x-\mu_1)(y-\mu_2)f(x,y)dxdy \\&= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}(x-\mu_1)(y-\mu_2)\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp{\{\frac{-1}{2(1-\rho^2)}[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}]\}}dxdy\\&=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}exp{\{\frac{-1}{2(1-\rho^2)}[(\frac{y-\mu_2}{\sigma_2}-\rho\frac{x-\mu_1}{\sigma_1})^2+(1-\rho^2)\frac{(x-\mu_1)^2}{\sigma_1^2}]\}}dxdy \\&= \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}exp{[\frac{-1}{2(1-\rho^2)}(\frac{y-\mu_2}{\sigma_2}-\rho\frac{x-\mu_1}{\sigma_1})^2+\frac{-(x-\mu_1)^2}{2\sigma_1^2}]}dxdy \\&令 \quad u = \frac{1}{\sqrt{1-\rho^2}}(\frac{y-\mu_2}{\sigma_2}-\rho\frac{x-\mu_1}{\sigma_1})，v = \frac{x-\mu_1}{\sigma_1}，\\&则x-\mu_1=\sigma_1v ，y-\mu_2=\sigma_2\sqrt{1-\rho^2}u+\rho v\sigma_2，dx= \sigma_1dv，dy=\sigma_2\sqrt{1-\rho^2}du\end{aligned}\\\begin{aligned} \therefore Cov(X,Y) &=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}\sigma_1v(\sigma_2\sqrt{1-\rho^2}u+\rho v\sigma_2)e^{\frac{-u^2}{2}+\frac{-v^2}{2}}\sigma_1dv\sigma_2\sqrt{1-\rho^2}du \\&= \frac{1}{2\pi}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}(\sigma_1\sigma_2\sqrt{1-\rho^2}uv+\sigma_1\sigma_2\rho v^2)e^{\frac{-u^2}{2}+\frac{-v^2}{2}}dvdu\\&=\frac{1}{2\pi}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}\bigg[\sigma_1\sigma_2\sqrt{1-\rho^2}uve^{\frac{-u^2}{2}+\frac{-v^2}{2}}+\sigma_1\sigma_2\rho v^2e^{\frac{-u^2}{2}+\frac{-v^2}{2}}\bigg]dudv \\&=\frac{\sigma_1\sigma_2\sqrt{1-\rho^2}}{2\pi}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}uve^{\frac{-u^2}{2}+\frac{-v^2}{2}}dudv+\frac{\sigma_1\sigma_2\rho}{2\pi}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} v^2e^{\frac{-u^2}{2}+\frac{-v^2}{2}}dudv\\&= \frac{\sigma_1\sigma_2\sqrt{1-\rho^2}}{2\pi}\int_{-\infty}^{+\infty}ue^{\frac{-u^2}{2}}du\int_{-\infty}^{+\infty}ve^{\frac{-v^2}{2}}dv+\frac{\sigma_1\sigma_2\rho}{2\pi}\int_{-\infty}^{+\infty}v^2e^{\frac{-v^2}{2}}dv\int_{-\infty}^{+\infty} e^{\frac{-u^2}{2}}du\\&=\frac{\sigma_1\sigma_2\sqrt{1-\rho^2}}{2\pi}(-e^{\frac{-u^2}{2}})\bigg|_{-\infty}^{+\infty}(-e^{\frac{-v^2}{2}})\bigg|_{-\infty}^{+\infty}+\frac{\sigma_1\sigma_2\rho}{2\pi}\bigg[-ve^{\frac{-v^2}{2}}\bigg|_{-\infty}^{+\infty}+\int_{-\infty}^{+\infty}e^{\frac{-v^2}{2}}dv\bigg]\sqrt{2\pi}\\&=0+\frac{\sigma_1\sigma_2\rho}{2\pi}(0+\sqrt{2\pi})\sqrt{2\pi}\\&=\sigma_1\sigma_2\rho\end{aligned}$

$\therefore \quad \rho_{XY} = \frac{Cov(X,X)}{\sqrt{D(X)}\sqrt{D(Y)}} = \rho$

也就是说，二维正态随机变量 $(X, Y)$ 的概率密度中的参数 $\rho$ 就是随机变量 $X, Y$ 的相关系数，因此，二维正态随机变量可由 $X, Y$ 各自的数学期望，方差和相关系数所确定。若 $X, Y$ 不相关，即 $\rho=0$ ，将其带入 $f (x, y)$ 刚好得到 $f(x,y) = f_X(x)f_Y(y)$ ，则 $X, Y$ 相互独立。因此对于二维正态随机变量 $(X, Y)$ 来说， $X, Y$ 不相关与独立是等价的。