认识协方差矩阵

我要飞升

于 2019-03-21 22:37:03 发布

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：协方差矩阵协方差

本文链接：https://blog.csdn.net/chris_xy/article/details/88720411

协方差矩阵是衡量多个随机变量之间线性相关性的工具，它包含每个变量的方差以及变量间的协方差。通过对数据进行标准化，协方差矩阵可以揭示不同特征之间的相关性。对角线元素表示各特征的方差，非对角线元素表示特征对之间的协方差，从而帮助我们了解数据集的结构和变量间的关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

期望即均值，表示随机变量平均取值的大小。用 $E (x)$ 表示。
在x离散情况下，设 $x=[x1,x2,⋯ ,xk]x=[x_1, x_2,\cdots, x_k]$ ，x出现的概率为 $p (x)$ ，则
$E(x)=∑i=1kxip(xi)E(x)=\sum_{i=1}^k x_i p(x_i)$
在x连续的情况下，设x对应的概率密度函数为 $f (x)$ ，则
$E(x)=∫−∞+∞xf(x)dxE(x)=\int_{- \infty}^{+\infty}xf(x)dx$
方差是用来衡量一组数据的离散程度。用 $v a r$ 表示，计算公式为：
$=\dfrac{\sum_{i=1}^k(x_i-E(x))^2}{k}$
协方差是对两个随机变量联合分布线性相关程度的一种度量。当协方差的值大于0时，表示两个变量成正相关；当协方差的值小于0时，表示两个变量成负相关；当协方差的值为0时，两个变量线性无关。用公式表示为：
$c o n v (X, Y) = E ((X - E (X)) (Y - E (Y)))$
由于随机变量取值范围不同，所以两个协方差之间没有可比性。假设 $X 、 Y 和 Z$ 分别为三个随机变量，我们无法直接通过 $c o n v (X, Y) 和 c o n v (X, Z)$ 来衡量变量X与谁相关性更强，因此定义了相关系数 $η\eta$ ，即对协方差除以标准差，进行标准化：
$η=conv(X,Y)var(X)⋅var(Y)\eta=\dfrac{conv(X,Y)}{\sqrt{var(X)}\cdot\sqrt{var(Y)}}$