关于协方差，协方差矩阵的个人理解

最新推荐文章于 2025-02-23 12:10:13 发布

第七个bug

最新推荐文章于 2025-02-23 12:10:13 发布

阅读量2.4k

点赞数 3

分类专栏：数学

本文链接：https://blog.csdn.net/weixin_42006387/article/details/106191371

版权

数学专栏收录该内容

14 篇文章

订阅专栏

文章目录

协方差
协方差矩阵（covariance matrix）
- 举例说明
- 数学符号表示
协方差矩阵的应用
使用sklearn中的np.cov遇到的坑

协方差

协方差定义

协方差（Covariance）在概率论和统计学中用于衡量两个变量的总体误差。
设有随机变量 $X$ 和随机变量 $Y$ ，则协方差定义为：

$C o v (X, Y) = E ((X - E [x]) (Y - E [Y])) = E ((Y - E [Y]) (X - E [X]))$
说明：
1. $E [X], E [Y]$ 分别表示随机变量 $X, Y$ 的均值，是一个标量。
2. 从直观上来看，协方差表示的是两个变量总体误差的期望。

假设随机变量 $X, Y$ 均以列向量给出， $E [X], E [Y]$ 分别表示他们的均值，则以向量的方式计算他们的协方差值为：
$Cov(X,Y)=(X-E[X])^{T}(Y-E[Y])=(Y-E[Y])^{T}(X-E[X])$

举例说明

设有随机变量 $X$ （假设是身高），观察到的值为：
$\begin{pmatrix}1\\ 2\\ 3\\\end{pmatrix}$
随机变量 $Y$ （假设是体重），观察到的值为：
$\begin{pmatrix}2\\ 4\\ 9\end{pmatrix}$
则， $E [X] = 2$ ， $E [Y] = 5$ 。

则协方差为：
$C o v (X, Y) = (1 - 2) * (2 - 5) + (2 - 2) * (4 - 5) + (3 - 2) * (9 - 5) = 7$
以向量的方式给出（表达更简洁）：
$Cov(X,Y)={\begin{pmatrix}1-2\\ 2-2\\ 3-2\\\end{pmatrix}}^{T}{\begin{pmatrix}2-5\\ 4-5\\ 9-5\end{pmatrix}}={\begin{pmatrix}-1\\ 0\\ 1\\\end{pmatrix}}^{T}{\begin{pmatrix}-3\\ -1\\ 4\end{pmatrix}}={\begin{pmatrix} -1& 0 & 1\end{pmatrix}}^{T}{\begin{pmatrix}-3\\ -1\\ 4\end{pmatrix}}=7$
虽然上述的例子很简单，但是对于理解下面的协方差矩阵构成有一定帮助。

方差

方差是协方差的一种特殊情况，即当两个变量是相同的情况。
$D(X)=Cov(X,X)=E((X-E[X])(X-E[X]))=E((X-E[X])^2)$
说明：
1. 一般情况下，随机变量 $X$ 的方差也记作 $V a r (X)$ ，简记为 $D (X)$

协方差矩阵（covariance matrix）

协方差矩阵的每个元素是各个向量元素（比如，身高，体重等；以实验来说，就是多个属性之间【列向量】）之间的协方差，是从标量随机变量到高维度随机向量的自然推广。

特点：

矩阵中各个元素的构成：各个向量元素之间的协方差
对称非负定矩阵

举例说明

现有一个数据集 $D$ ：

	属性1	属性2	属性3	属性4
样本1	1	2	3	4
样本2	3	4	1	2
样本3	2	3	1	4
属性（随机变量）均值	2	3	1.67	3.33

将数据区域写成矩阵的形式：
$\begin{pmatrix} 1& 2& 3& 4\\ 3& 4& 1& 2\\ 2& 3& 1& 4\end{pmatrix}$
其中每一列就代表一个随机变量（属性，如身高），每一行代表一个样本（在各个属性上的观察值）。现在计算该数据 $D$ 的协方差矩阵。

每个随机变量都应该和其他随机变量（包括自身）进行协方差计算，每两个随机变量之间的协方差计算和上述的协方差计算方式相同。用 $\sum$ 来表示这个协方差矩阵。
用 $\sum_{i,j}$ 来表示协方差矩阵中的各个元素。则 $\sum_{i,j}$ 表示第 $i$ 个随机变量（属性 $i$ ）和第 $j$ 个随机变量（属性 $j$ ）之间的协方差。
$\sum\nolimits_{i,j}=E((I-E(I))(J-E(J)))$
举例：计算 $\sum_{2,3}$ ，第二列表示的随机变量与第三列随机变量之间的协方差
$\sum\nolimits_{2,3}=\begin{pmatrix}2-3\\ 4-3\\ 3-3\end{pmatrix}^{T}{\begin{pmatrix}3-1.67\\ 1-1.67\\ 1-1.67\end{pmatrix}}=\begin{pmatrix}-1&1&0\end{pmatrix}{\begin{pmatrix}1.33\\ -0.67\\ -0.67\end{pmatrix}}=-2$
每个随机变量都会与其他随机变量（包括自身）计算一遍协方差值，所有数据 $D$ 中有 $n$ 个随机变量（属性），就会有构成一个 $n 行 n 列$ 方阵的协方差矩阵。至于矩阵中各个元素的计算方式，按照 $\sum_{2,3}$ 计算方式即可。

数学符号表示

设 $X_i,X_j$ 分别表示在 $n$ 个随机变量中的第 $i$ 个和第 $j$ 个随机变量。 $E(X_i),E(X_j)$ 分别表示对应随机变量的期望。

则协方差矩阵中的第 $i, j$ 项元素被定义为如下形式：
$\sum\nolimits_{i,j}=Cov(X_i,X_j)=E((X_i-E(X_i))(X_j-E(X_j)))$
所以协方差矩阵被定义为：
$\sum=\begin{pmatrix}E((X_1-E(X_1))(X_1-E(X_1)))&E((X_1-E(X_1))(X_2-E(X_2)))&\cdots E((X_1-E(X_1))(X_n-E(X_n))\\E((X_2-E(X_2))(X_1-E(X_1)))&E((X_2-E(X_2))(X_2-E(X_2)))&\cdots E((X_2-E(X_2))(X_n-E(X_n))\\\vdots&\vdots&\vdots\\E((X_n-E(X_n))(X_1-E(X_1)))&E((X_n-E(X_n))(X_2-E(X_2)))&\cdots E((X_n-E(X_n))(X_n-E(X_n))\end{pmatrix}$
说明：

协方差矩阵 $\sum_{(n*n)}$ 是个方阵，其中 $n$ 的大小等于数据集 $D$ 中属性的个数。

协方差矩阵的应用

马氏距离

马氏距离（Mahalanobis Distance）是由马哈拉诺比斯（P. C. Mahalanobis）提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是：它考虑到各种特性之间的联系。

数学符号定义

单个数据点 $x$ 的马氏距离：
$D_M(x)=\sqrt{(x-\mu)^{T}{\sum}^{-1}(x-\mu)}$
说明：
1. $\sum^{-1}$ 表示协方差矩阵的逆。
2. 数据点 $x$ 为列向量，该向量的长度和原始数据集 $D$ 中的属性个数相同（假设，身高，体重等随机变量）。向量中的某个值为对应随机变量的观察值。
3. $\mu$ 为各个属性上的均值。
4. 马氏距离计算的是距离，是一个标量。协方差矩阵只是计算马氏距离的一个步骤。
数据点 $x, y$ 之间的马氏距离：
$D_M(x,y)=\sqrt{(x-y)^{T}{\sum}^{-1}(x-y)}$
说明：
1. $\sum^{-1}$ 表示协方差矩阵的逆。
2. 数据点 $x, y$ 均是列向量，向量的长度和原始数据集 $D$ 中的属性个数相同。向量中的某个值为对应随机变量的观察值。
如果如果协方差矩阵是单位向量，也就是各维度独立同分布，马氏距离就变成了欧氏距离。

优点：

马氏距离同欧氏距离、曼哈顿距离、汉明距离等一样被用作评定数据之间的相似度指标。但却可以应对高维线性分布的数据中各维度间非独立同分布的问题。
它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的）并且是尺度无关的（scale-invariant），即独立于测量尺度

PCA降维

协方差矩阵在PCA中的信息度量起到作用。

https://blog.csdn.net/HLBoy_happy/article/details/77146012

使用sklearn中的np.cov遇到的坑

https://blog.csdn.net/anthea_luo/article/details/94590170

np.cov的api说明：https://docs.scipy.org/doc/numpy/reference/generated/numpy.cov.html

问题产生的原因：

按照rowvar的默认值（true），会把一行当成一个特征，一列当成一个样本。但是通常我们会将一行当做一个样本，一列当做是特征。
- 解决办法：
  1. 将rowvar设为为flase
```
np.cov(a, rowvar=False)
```
  2. 或者将数据集 $D$ 进行转置
```
np.cov(a.T)
```
参数中的 $b i a s$ 参数，代表是否为有偏，默认是Fasle，即除以 $N - 1$ 。若是将 $b i a s$ 设置为 $t r u e$ ，则是除以 $N$ 。其中 $N$ 的大小为样本的个数。

举例说明：

参考：

https://blog.csdn.net/u011534057/article/details/52869707
https://blog.csdn.net/hustqb/article/details/90290232
https://ph0en1xgseek.github.io/2018/04/18/Mahalanobis/n1xgseek.github.io/2018/04/18/Mahalanobis/