PCA小白教程

最新推荐文章于 2023-10-08 21:49:23 发布

空诺诺

最新推荐文章于 2023-10-08 21:49:23 发布

阅读量444

点赞数

分类专栏：数学

本文链接：https://blog.csdn.net/weixin_40883324/article/details/94349015

版权

数学专栏收录该内容

0 篇文章 0 订阅

订阅专栏

一.基础知识

这一小节因为无关紧要，放在最后
这一小节会解释本文提到的一些名词，看后文遇到不懂的名词，再在这一小节中查找。

二.主成分分析法介绍

1. 核心思想

主成分分析法的核心思想就是：
$Y = X A$
其中：
$X$ : $(m, n)$ 矩阵，原始数据集，一行代表一个样本，有 $m$ 个样本，每一列是一种特征,有 $n$ 种特征。
$A$ : $(n, ?)$ 矩阵，表示线性变换的矩阵
$Y$ : $(m, ?)$ 矩阵，经过PCA变换后的矩阵

上式可以解释为：
利用线性变换，将原始数据变换为一组各维度线性无关的表示。

2. 理论做法

这一部分灵感来源：https://blog.csdn.net/hustqb/article/details/78394058

我们要对 $X$ 进行线性变换，使得 $Y$ 在各维度上都线性无关。我们想到了计算 $Y$ 的协方差矩阵。（这里假设已经对 $X$ 进行了预处理， $X=X-\bar{X}$ , $\bar{X}$ 是 $X$ 的均值，预处理后， $X$ 的数学期望为0）
$Conv(Y)=\dfrac{1}{m}Y^TY=\dfrac{1}{m}(XA)^T(XA)=A^TCA$ 其中：
$C$ :是矩阵 $X$ 的协方差矩阵,由于 $C=\dfrac{1}{m}X^TX$ ,所以 $C$ 是对称矩阵。

协方差矩阵 $C o n v (Y)$ 的主对角线是方差，其余元素都是协方差，而方差表示在这个特征上，各个样本（虽然这里有个样本）间的差异性，而协方差为0，则说明这两个特征不相关。
所以，我们的目标就是使得 $C o n v (Y)$ 主对角线的元素值尽可能大，其余元素值为0。（由于PCA还可以降维，所以我们会按照从大到小的顺序排列主对角线元素）。
而通过推导，得到 $Conv(Y)=A^TCA$ ,我们只需要求得 $A$ 使得 $C$ 对角化即可。
我们知道，对称矩阵是一定可以对角化的。所以，我们可以通过求特征值和特征向量来将矩阵 $C$ 对角化：
$C=P\Lambda P^T \\ P^T CP=\Lambda$ 其中
$\Lambda$ ：是对角阵，对角元素是 $C$ 的特征值
$P$ :每一列是 $\Lambda$ 对应的特征值所对应的特征向量

所以，对矩阵 $X$ 进行PCA的做法是：
1. 求 $C=\dfrac{1}{m}X^TX$
2.求 $C$ 的特征向量
3. $C$ 的特征向量构成矩阵 $A$ 的列
我们可以对特征向量的维度进行截断，以达到降维的目的。
上述步骤还有很多细节需要注意，不过我没有考虑过，欢迎补充。

3.利用SVD简化计算

然而在计算机编程中，调用计算SVD的库函数似乎比求特征向量速度快很多。所以经常使用SVD简化计算。

CS231n中的做法

原始笔记参考：http://cs231n.github.io/neural-networks-2/
需要梯子

# Assume input data matrix X of size [N x D]
X -= np.mean(X, axis = 0) # zero-center the data (important)
cov = np.dot(X.T, X) / X.shape[0] # get the data covariance matrix
U,S,V = np.linalg.svd(cov)
Xrot = np.dot(X, U) # decorrelate the data
Xrot_reduced = np.dot(X, U[:,:100]) # Xrot_reduced becomes [N x 100]

在上述代码中，SVD的作用仅仅就是求矩阵 $U$ ，令 $A = U$ 后，得到：
$Y=XU\\ Y^TY=(XU)^TXU=U^TX^TXU=U^TU\Sigma V^TU=\Sigma$
备注： 由于 $X^TX$ 是对称矩阵，所以 $U$ 和 $V$ 相等。

更常见的做法

参考资料：
https://stats.stackexchange.com/questions/134282/relationship-between-svd-and-pca-how-to-use-svd-to-perform-pca
这个回答非常到位，感人。强推

更常见用SVD简化PCA的计算是直接对 $X$ 进行奇异值分解:
$X=U\Sigma V^T$
那么此时，PCA就是：
$Y = X V$
解释一下：
$C=\dfrac{1}{m}X^TX=\dfrac{1}{m}V \Sigma^TU^TU\Sigma V^T=V\dfrac{\Sigma^2}{m}V^T$
备注： $U$ 是酉矩阵， $U^TU=E$
$\Sigma$ 是 $X$ 的奇异值，奇异值的平方是特征值

所以，此时：
$Conv(Y)=V^TCV=\dfrac{\Sigma^2}{m}$
是个对角阵，而且按照主元素从大到小的顺序排列（奇异值分解的要求）

我这里只是从数学上简单推了下，真正的原理，链接里给的非常详细，我偷懒了，没有翻译。

一.基础知识

1. 线性变换在原来基下的矩阵

在这里插入图片描述
$A$ 就是线性变换 $T$ 在基 $\alpha_1,\alpha_2,\cdots,\alpha_n$ 下的矩阵。

其中：

$T$ ：是 $V$ 的线性变换

$V$ : 是数域 $\mathbb{P}$ 上的 $n$ 维线性空间

$A$ : 是矩阵，如下：

在这里插入图片描述

2.如何理解线性变换常常写成矩阵相乘的形式

这一部分灵感来源：https://blog.csdn.net/unclerunning/article/details/70893118

已知：

$A$ : 线性变换的矩阵，即
在这里插入图片描述

求:

$\bold{x}$ 经过线性变换 $T$ 变换后的向量

其中：

$\bold{x}$ : $\bold{x}=\begin{bmatrix}x_1\\x_2\\\cdots\\x_n\end{bmatrix}=x_1\alpha_1+x_2\alpha_2+\cdots+x_n\alpha_n$ ,这里默认基向量是标准基向量。 $\bold{x}$ 是在原来的空间中的一个向量

解：
$T(\bold{x})=T(\alpha_1,\alpha_2,\cdots,\alpha_n)\begin{bmatrix}x_1\\x_2\\\cdots\\x_n\end{bmatrix}=\begin{bmatrix}T\alpha_1&T\alpha_2\cdots&T\alpha_n\end{bmatrix}\begin{bmatrix}x_1\\x_2\\\cdots\\x_n\end{bmatrix}$

通常， $\begin{bmatrix}T\alpha_1&T\alpha_2\cdots&T\alpha_n\end{bmatrix}$ 是已知的，所以用这个矩阵右乘原向量，就可以得到线性变换后的向量。
所以：在基为标准基时，线性变换在标准基下的矩阵乘以需要变换的向量，就是原向量线性变换后的结果。
这里补充这个知识的意义在于：对一个向量做线性变换，变换矩阵到底是什么样的。
当原向量是列向量，变换矩阵左乘，变换后的基向量构成变换矩阵的列。
当原向量是行向量，变换矩阵右乘，变换后的基向量构成变换矩阵的行。

3. 奇异值分解

$M=U\Sigma V^*$
如果存在上述这样的 $M$ 的分解，则称这样的分解为 $M$ 的奇异值分解
其中：

$M$ 是 $m\times n$ 阶矩阵

$U$ 是 $m\times m$ 阶酉矩阵

$\Sigma$ 是 $m\times n$ 阶非负实数对角矩阵

$V^*$ 是 $V$ 的共轭转置，是 $\times n$ 阶 酉矩阵(complex unitary matrix)

空诺诺

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
PCA小白教程

1. 基础概念这一小节会解释本文提到的一些名词，可以跳过不看，看后文遇到不懂的名词，再在这一小节中查找。2. 主成分分析法介绍主成分分析法的核心思想就是：a=b+1 利用线性变换，将原始数据变换为一组各维度线性无关的表示。...
复制链接

扫一扫

专栏目录