机器学习|协方差与相关系数|15mins入门|概统学习笔记（十二）

最新推荐文章于 2024-05-12 11:49:13 发布

Sany 何灿

最新推荐文章于 2024-05-12 11:49:13 发布

阅读量366

点赞数 1

分类专栏：概统文章标签：机器学习概率论

本文链接：https://blog.csdn.net/SanyHo/article/details/105186051

版权

32 篇文章 9 订阅

订阅专栏

定义：任意两个随机变量X和Y的协方差，记为 $C o v (X, Y)$ 定义为
$Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}$
性质：
1. $C o v (X, Y) = C o v (Y, X)$
2. $\quad a,b 是常数$
3. $Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)$
计算协方差公式:

由协方差的定义及期望的性质，可得
$Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\} \\ =E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y) \\ =E(XY) - E(X)E(Y)$
可见，若X与Y独立，则 $C o v (X, Y) = 0$
随机变量和的方差与协方差的关系
$\\ D(\sum_{i=1}^nX_i)=\sum_{i=1}^nD(X_i)+2\sum\sum_{i<j}Cov(X_i,X_j)$
若 $X_1,X_2,...,X_n$ 两两独立，则上式化为
$D(\sum_{i=1}^nX_i)=\sum_{i=1}^nD(X_i)$

背景：协方差的大小在一定程度上反映了X和Y相互间的关系，但它还受X与Y本身度量单位的影响。例如：
$Cov(kX,kY)=k^2Cov(X,Y)$
为了克服这一缺点，对协方差进行标准化，引入了相关系数
定义：设 $D (X) > 0, D (Y) > 0$ ,称
$\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)D(Y)}}$
为随机变量X和Y的相关系数，记 $\rho_{XY}$ 为 $\rho$
相关系数的性质：
1. $|\rho|\leq 1$
2. X和Y独立时， $\rho=0$ ，但其逆命题不一定成立
3. | $\rho$ |=1,即存在常数 $a,b(b\neq 0)$ ，使 $P{Y=a+bX}=1$ ,即X和Y以概率1线性相关
独立与相关的关系：
- 若X与Y独立，则X与Y不相关，但由X与Y不相关，不一定能推出X与Y独立
  
  但若 $(X, Y)$ 服从二维正态分布，则独立与不相关等价
意义：相关系数刻画了X和Y间”线性相关“的程度
考虑以X的线性函数 $a + b X$ 来近似表示Y，以均方误差 $e=E{[Y-(a+bX)]^2}$ 来衡量以 $a + b X$ 近似表达Y的好坏程度。

e值越小表示 $a + b X$ 与Y的近似程度越好。通常用微积分中求极值的方法，求出使e达到最小时的a,b。

证明：
$e=E{[Y-(a+bX)]^2}=E(Y^2)+b^2E(X^2)+a^2-2bE(XY)+2abE(X)-2aE(Y)$

$\begin{cases} \frac{\partial e}{\partial a}=2a+2bE(X)-2E(Y)=0 \\ \frac{\partial e}{\partial b}=2bE(X^2)-2E(XY)+2aE(X)=0 \end{cases}$
解得
$\begin{cases} b_0=\frac{Cov(X,Y)}{D(X)} \\ a_0=E(Y)-b_0E(X) \end{cases}$
这样求出的最佳逼近为
$L(X)=a_0+b_0X$

关注

专栏目录