协方差、协方差矩阵、PCA的理解（附python代码）

虎大猫猫

已于 2022-04-19 18:21:32 修改

阅读量3.3k

点赞数 11

分类专栏：深度学习机器学习 python 文章标签：算法线性代数矩阵

于 2021-07-21 14:53:50 首次发布

本文链接：https://blog.csdn.net/fengmaomao1991/article/details/118959931

版权

python 同时被 3 个专栏收录

16 篇文章

订阅专栏

深度学习

8 篇文章

订阅专栏

机器学习

3 篇文章

订阅专栏

本文详细介绍了协方差、协方差矩阵及其与PCA（主成分分析）的关系。通过实例展示了如何计算协方差矩阵，以及如何求解特征值和特征向量，用于数据降维。PCA通过选取协方差矩阵的最大特征值对应的特征向量，实现数据的投影和降维。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

均值、方差、标准差

均值： $\bar{X}=\frac{\sum_{i=1}^n{X_i}}{n}$
标准差： $S=\sqrt{\frac{\sum_{i=1}^n({X_i-\bar{X}})^2}{n-1}}$
方差： $S=\frac{\sum_{i=1}^n({X_i-\bar{X}})^2}{n-1}$
均值描述的是样本集合的中间点，标准差描述的是各个样本点到均值的距离之平均。方差则仅仅是标准差的平方。
以 $\begin{bmatrix} 0& 8& 12& 20\end{bmatrix}$ 和 $\begin{bmatrix} 8& 9& 11& 12\end{bmatrix}$ 为例：
均值都是10，但显然两个集合的差别是很大的。
计算两者的标准差，前者是8.3后者是1.8，显然后者较为集中，故其标准差小一些，标准差描述的就是这种“散布度”。

协方差

标准差和方差一般是用来描述一维数据的。
对于二维数据，协方差就产生了：
协方差： $cov(X,Y)=\frac{\sum_{i=1}^n({X_i-\bar{X}})({Y_i-\bar{Y}})}{n-1}$
从下面这个式子来看方差和协方差：
$cov(X,X)=var(X,X)=\frac{\sum_{i=1}^n({X_i-\bar{X}})({X_i-\bar{X}})}{n-1}$
协方差的结果有什么意义呢？
如果结果为正值，则说明两者是正相关的。如果结果为负值，就说明两者是负相关。如果为0，则两者之间没有关系，也就是“相互独立”。

协方差矩阵

协方差矩阵：
$C_{n \times n} = (c_{i,j},\quad c_{i,j}=cov(Dim_{i}, Dim_{j}))$
以三维为例：
$C=\begin{pmatrix} cov(X,X) & cov(X,Y) & cov(X,Z) \\ cov(Y,X) & cov(Y,Y) & cov(Y,Z) \\ cov(Z,X) & cov(Z,Y) & cov(Z,Z) \end{pmatrix}$
协方差矩阵的计算：
（1）先让样本矩阵中心化，即每一维度减去该维度的均值，使每一维度上的均值为0；
（2）然后直接新的样本矩阵乘上新的样本矩阵的转置（用转置相乘实现两两维度的相乘）；
（3）除以n-1。

现在有10个样例，每个样例有2个特征：
$X=\begin{bmatrix} 2.5& 0.5& 2.2& 1.9& 3.1& 2.3& 2& 1& 1.5& 1.1\end{bmatrix}$
$Y=\begin{bmatrix} 2.4& 0.7& 2.9& 2.2& 3& 2.7& 1.6& 1.1& 1.6& 0.9\end{bmatrix}$
$\begin{bmatrix} 2.5& 0.5& 2.2& 1.9& 3.1& 2.3& 2& 1& 1.5& 1.1\\2.4& 0.7& 2.9& 2.2& 3& 2.7& 1.6& 1.1& 1.6& 0.9\end{bmatrix}$
矩阵去中心化之后：
$Data_S = \begin{bmatrix} 0.69 & -1.31& 0.39& 0.09& 1.29&0.49& 0.19& -0.81& -0.31& -0.71\\0.49& -1.21& 0.99& 0.29& 1.09& 0.79& -0.31& -0.81& -0.31& -1.01\end{bmatrix}$
转置相乘除以 $n - 1$ ：
$C = Data_S. Data_S^T /9$
得到协方差矩阵为：
$C=\begin{bmatrix} 0.61655556 & 0.61544444 \\ 0.61544444 & 0.71655556 \end{bmatrix}$
0.61655556为 $X$ 的方差，0.71655556为 $Y$ 的方差。
0.61544444为 $X$ 和 $Y$ 的协方差。
代码如下：

import numpy as np

x = np.array([2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2, 1, 1.5, 1.1])
y = np.array([2.4, 0.7, 2.9, 2.2, 3, 2.7, 1.6, 1.1, 1.6, 0.9])

# 归一化数据
scaled_x = x-np.mean(x)
scaled_y = y-np.mean(y)

# 组成矩阵
data = np.matrix([[scaled_x[i], scaled_y[i]] for i in range(len(scaled_x))])

# 求协方差矩阵
cov_matrix= np.dot(data.T, data)/(len(x)-1)

等价于：

import numpy as np

x = np.array([2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2, 1, 1.5, 1.1])
y = np.array([2.4, 0.7, 2.9, 2.2, 3, 2.7, 1.6, 1.1, 1.6, 0.9])

# 求协方差矩阵
cov_matrix= np.cov(x, y)

PCA

先复习下矩阵的特征值和特征向量。

特征值、特征向量

定义1：设 $A$ 是 $n$ 阶方阵，若存在数 $\lambda$ 和非零向量 $x$ ，使得
$Ax=\lambda x(x \neq 0)$
则称 $\lambda$ 是 $A$ 的一个特征值， $x$ 是 $A$ 对应于特征值 $\lambda$ 的特征向量。
在几何学中，矩阵A的特征向量是指经过与矩阵A变换后方向保持不变的向量。而特征值为在这个变化中特征向量的比例因子。
方阵的特征值的个数等于矩阵的阶数。

协方差矩阵的特征值和特征向量

接着上文的例子，已经求出 $D a t a$ 的协方差矩阵 $C$ ：
$\begin{bmatrix} 2.5& 0.5& 2.2& 1.9& 3.1& 2.3& 2& 1& 1.5& 1.1\\2.4& 0.7& 2.9& 2.2& 3& 2.7& 1.6& 1.1& 1.6& 0.9\end{bmatrix}$

$C=\begin{bmatrix} 0.61655556 & 0.61544444 \\ 0.61544444 & 0.71655556 \end{bmatrix}$

# 求协方差矩阵的特征值和特征向量
eig_val, eig_vec = np.linalg.eig(cov)

得到特征值：
$eigValue=\begin{bmatrix} 0.0490834 & 1.28402771\end{bmatrix}$
特征向量：
$eigVectMatrix=\begin{bmatrix} -0.73517866&-0.6778734\\ 0.6778734&-0.73517866\end{bmatrix}$

选取前k个特征（降到k维度）

将特征值按照从大到小的顺序排序，选择其中最大的 $k$ 个，然后将其对应的 $k$ 个特征向量分别作为列向量组成特征向量矩阵。
这里特征值只有2个，我们选择其中最大的那个。
这里是1.28402771，对应的特征向量是 $eigVect=\begin{pmatrix} -0.6778734,&-0.73517866\end{pmatrix}$ 。

将样本点投影到选取的特征向量上

获取低维特征空间的数据：
$eigVect\cdot Data_s$
我们来看下是如何降维的： $[1,2]\cdot [2,10]\to[1,10]$

完整代码如下：

# -*- coding: utf-8 -*-

import numpy as np
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

x = np.array([2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2, 1, 1.5, 1.1])
y = np.array([2.4, 0.7, 2.9, 2.2, 3, 2.7, 1.6, 1.1, 1.6, 0.9])

# 归一化数据
mean_x = np.mean(x)
mean_y = np.mean(y)
scaled_x = x-mean_x
scaled_y = y-mean_y

data = np.matrix([[scaled_x[i], scaled_y[i]] for i in range(len(scaled_x))])

# 绘制散点图查看数据分布
plt.plot(x, y, 'r*', label='原始数据')
plt.plot(scaled_x, scaled_y, 'go', label='去中心化后数据')

# 求协方差矩阵
dot = np.dot(data.T, data)
dott = dot/(len(x)-1)

cov = np.cov(x, y)

# 求协方差矩阵的特征值和特征向量
eig_val, eig_vec = np.linalg.eig(cov)

# 求出特征向量后，我们需要选择降维后的数据维度 k（n 维数据降为 k 维数据），但我们的数据只有2维，所以只能降1维
eig_pairs = [(np.abs(eig_val[i]), eig_vec[:, i]) for i in range(len(eig_val))]
eig_pairs.sort(reverse=True)
feature = eig_pairs[0][1]

# 转化得到降维后的数据
new_data_reduced = np.transpose(np.dot(feature, np.transpose(data)))
new_y = np.zeros(len(x))
plt.plot(new_data_reduced, new_y, 'b.', label='降维后数据')

plt.legend()
plt.show()