主成分分析（PCA）的数学推导

最新推荐文章于 2024-04-24 01:54:40 发布

不热爱技术只想发财

最新推荐文章于 2024-04-24 01:54:40 发布

阅读量715

点赞数 2

分类专栏：机器学习笔记

本文链接：https://blog.csdn.net/weixin_40848065/article/details/105650227

版权

机器学习笔记专栏收录该内容

6 篇文章 1 订阅

订阅专栏

本文参考主成分分析降维原理——PCA数学推导及深度学习（2.12）。

应用层面的推导参考【机器学习】降维——PCA（非常详细）及PCA的数学原理

主成分分析是一个简单的机器学习算法，可以通过基础的线性代数知识推导。

假设在 $\mathbb{R}^{n}$ 空间中我们有 $m$ 个点 $\{\mathbf{x}^{(1)},...,\mathbf{x}^{(m)}\}$ ，我们希望对这些点进行有损压缩。有损压缩表示我们使用更少的内存，但损失一些精度去存储这些点。我们希望损失的精度尽可能少。

一种编码这些点的方式是用低维表示。对于每个点 $\mathbf{x}^{(i)}\in\mathbb{R}^{n}$ ，会有一个对应的编码向量 $\mathbf{c}^{i}\in\mathbb{R}^{l}$ 。如果 $l$ 比 $n$ 小，那么我们便使用了更少的内存来存储原来的数据。我们希望找到一个编码函数，根据输入返回编码， $f(\mathbf{x})=\mathbf{c}$ ；我们也希望找到一个解码函数，给定编码重构输入， $x\approx g(f(\mathbf{x}))$ 。

PCA 由我们选择的解码函数而定。具体地，为了简化解码器，我们使用矩阵乘法将编码映射回 $\mathbb{R}^{n}$ ，即 $g(\mathbf{c}) = D\mathbf{c}$ ，其 $D\in\mathbb{R}^{n\times l}$ 是定义解码的矩阵。

目前为止所描述的问题，可能会有多个解。因为如果我们按比例地缩小所有点对应的编码向量 $c_{i}$ ，那么我们只需按比例放大 $D_{:,i}$ ，即可保持结果不变。为了使问题有唯一解，我们限制 $D$ 中所有列向量都有单位范数。

计算这个解码器的最优编码可能是一个困难的问题。为了使编码问题简单一些，PCA限制 $D$ 的列向量彼此正交（注意，除非 $l = n$ ，否则严格意义上 $D$ 不是一个正交矩阵）。

为了将这个基本想法变为我们能够实现的算法，首先我们需要明确如何根据每一个输入 $\mathbf{x}$ 得到一个最优编码 $c^{*}$ 。一种方法是最小化原始输入向量 $\mathbf{x}$ 和重构向量 $g(\mathbf{c}^{*})$ 之间的距离。我们使用范数来衡量它们之间的距离。在PCA算法中，我们使用 $L^{2}$ 范数：
$\mathbf{c^{*}}=agr\min\|\mathbf{x}-g(\mathbf{c})\|_{2}.$

我们可以用平方 $L^{2}$ 范数替代 $L^{2}$ 范数，因为两者在相同的值 $\mathbf{c}$ 上取得最小值。这是因为 $L^{2}$ 范数是非负的，并且平方运算在非负值上是单调递增的。
$\mathbf{c^{*}}=agr\min\limits_{\mathbf{c}}\|\mathbf{x}-g(\mathbf{c})\|_{2}^{2}.$

该最小化函数可以简化成:
$(\mathbf{x}-g(\mathbf{c}))^{T}(\mathbf{x}-g(\mathbf{c}))=\mathbf{x}^{T}\mathbf{x}-\mathbf{x}^{T}g(\mathbf{c})-g(\mathbf{c})^{T}\mathbf{x}+g(\mathbf{c})^{T}g(\mathbf{c})=\mathbf{x}^{T}\mathbf{x}-2\mathbf{x}^{T}g(\mathbf{c})+g(\mathbf{c})^{T}g(\mathbf{c})$

因为第一项x⊤x 不依赖于c，所以我们可以忽略它，得到如下的优化目标：
$\mathbf{c}^{*}=agr\min\limits_{\mathbf{c}}-2\mathbf{x}^{T}g(\mathbf{c})+g(\mathbf{c})^{T}g(\mathbf{c}).$

更进一步，我们代入 $g(\mathbf{c})$ 的定义：
$\mathbf{c}^{*}=agr\min\limits_{\mathbf{c}}-2\mathbf{x}^{T}D\mathbf{c}+\mathbf{c}^{T}D^{T}D\mathbf{c}=agr\min\limits_{\mathbf{c}}-2\mathbf{x}^{T}D\mathbf{c}+\mathbf{c}^{T}\mathbf{c}$

我们可以通过向量微积分来求解这个最优化问题，对 $\mathbf{c}$ 求偏导，并令：
$\nabla_{\mathbf{c}}(-2\mathbf{x}^{T}D\mathbf{c}+\mathbf{c}^{T}\mathbf{c})=-2D^{T}\mathbf{x}+2\mathbf{c}=0$

则：
$\mathbf{c}=D^{T}\mathbf{x}.$

这使得算法很高效：最优编码 $\mathbf{x}$ 只需要一个矩阵-向量乘法操作。为了编码向量，我们使用编码函数：
$f(\mathbf{x})=D^{T}\mathbf{x}.$

进一步使用矩阵乘法，我们也可以定义PCA重构操作：
$r(\mathbf{x})=g(f(\mathbf{x}))=DD^{T}\mathbf{x}.$

接下来，我们需要挑选编码矩阵 $D$ 。要做到这一点，我们回顾最小化输入和重构之间 $L^{2}$ 距离的这个想法。因为我们用相同的矩阵 $D$ 对所有点进行解码，我们不能再孤立地看待每个点。反之，我们必须最小化所有维数和所有点上的误差矩阵Frobenius范数，记 $X=[\mathbf{x}^{(1)},...,\mathbf{x}^{(m)}]$ ：
$D^{*}=\argmin\limits_{D}\|X-DD^{T}X\|_{F}^{2},s.t. D^{T}D=I_{l}$

暂时不考虑约束，我们可以将Frobenius 范数简化成下面的形式：
$\begin{aligned} &\argmin\limits_{D}\|X-DD^{T}X\|_{F}^{2}\\ =&\argmin\limits_{D}Tr[(X-DD^{T}X)^{T}(X-DD^{T}X)]\\ =&\argmin\limits_{D}[Tr(X^{T}X)-2Tr(X^{T}DD^{T}X)+Tr(X^{T}DD^{T}DD^{T}X)]\\ =&\argmin\limits_{D}[-2Tr(X^{T}DD^{T}X)+Tr(X^{T}DD^{T}DD^{T}X)]\\ =&\argmin\limits_{D}[-Tr(X^{T}DD^{T}X)]\\ =&\argmax\limits_{D}[Tr(D^{T}XX^{T}D)]\\ \end{aligned}$
由于 $XX^{T}$ 为 $n\times n$ 实对称矩阵，因此其存在 $n$ 个实数（非负）特征值，设为 $\{\lambda_{1},\lambda_{2},...,\lambda_{n}\}$ (假设 $\lambda_{1}\geq\lambda_{2}\geq...\geq\lambda_{n}$ )，和 $n$ 个正交的特征向量（不妨设为标准正交向量）设为 $\{\mathbf{v}_{1},\mathbf{v}_{2},...,\mathbf{v}_{n}\}$ ，即存在标准正交矩阵 $P=[\mathbf{v}_{1},\mathbf{v}_{2},...,\mathbf{v}_{n}]$ 满足 $P^{T}XX^{T}=\Lambda \Leftrightarrow XX^{T}=P\Lambda P^{T}$ .

记 $D=[\mathbf{d}_{1},...,\mathbf{d}_{l}]$ ，则有
$\begin{aligned} &\argmax\limits_{D^{T}D=I}(\mathbf{d}_{1}^{T}XX^{T}\mathbf{d}_{1}+\mathbf{d}_{2}^{T}XX^{T}\mathbf{d}_{2}+...+\mathbf{d}_{l}^{T}XX^{T}\mathbf{d}_{l})\\ \leq&\argmax\limits_{D^{T}D=I}(\mathbf{d}_{1}^{T}XX^{T}\mathbf{d}_{1})+\argmax\limits_{D^{T}D=I}(\mathbf{d}_{2}^{T}XX^{T}\mathbf{d}_{2}+...+\mathbf{d}_{l}^{T}XX^{T}\mathbf{d}_{l}) \end{aligned}$

由Reyleigh商最大最小定理，
$\argmax\limits_{D^{T}D=I}(\mathbf{d}_{1}^{T}XX^{T}\mathbf{d}_{1})=\lambda_{max}(XX^{T})=\lambda_{1}$
根据 $D^{T}D=I$ ， $\mathbf{d}_{2} \in \{span(\mathbf{v}_{2},...,\mathbf{v}_{n})\bigcap(\mathbf{d}_{2}^{T}\mathbf{d}_{2}=1)\}$ ，因为用标准正交基可以表示任何向量，于是对任意的 $\mathbf{d}_{2}$ 可以表示为：
$\mathbf{d}_{2}=[\mathbf{v}_{2},...,\mathbf{v}_{n}][d_{22},d_{23},...,d_{2n}]^{T}$
因此
$\argmax\limits_{D^{T}D=I}(\mathbf{d}_{2}^{T}XX^{T}\mathbf{d}_{2}) =\argmax\limits_{D^{T}D=I}(\lambda_{2}d_{22}+\lambda_{3}d_{23}+...+\lambda_{n}d_{2n})\leq\lambda_{2}$
由于 $\mathbf{d}_{2}=\mathbf{v}_{2}$ 时，等号成立，于是有
$\argmax\limits_{D^{T}D=I}(\mathbf{d}_{2}^{T}XX^{T}\mathbf{d}_{2})=\lambda_{2}$
于是有
$\argmax\limits_{D^{T}D=I}(\mathbf{d}_{2}^{T}XX^{T}\mathbf{d}_{2}+...+\mathbf{d}_{l}^{T}XX^{T}\mathbf{d}_{l})\leq\lambda_{2}+\argmax\limits_{D^{T}D=I}(\mathbf{d}_{3}^{T}XX^{T}\mathbf{d}_{3}+...+\mathbf{d}_{l}^{T}XX^{T}\mathbf{d}_{l})$
归纳可得，
$\argmax\limits_{D^{T}D=I}(\mathbf{d}_{1}^{T}XX^{T}\mathbf{d}_{1}+\mathbf{d}_{2}^{T}XX^{T}\mathbf{d}_{2}+...+\mathbf{d}_{l}^{T}XX^{T}\mathbf{d}_{l})\leq\lambda_{1}+\lambda_{2}+...+\lambda_{l}$
同时，容易验证，当 $\mathbf{d}_{1}=\mathbf{v}_{1},...,\mathbf{d}_{l}=\mathbf{v}_{l}$ 时，有
$\mathbf{d}_{1}^{T}XX^{T}\mathbf{d}_{1}+\mathbf{d}_{2}^{T}XX^{T}\mathbf{d}_{2}+...+\mathbf{d}_{l}^{T}XX^{T}\mathbf{d}_{l}=\lambda_{1}+\lambda_{2}+...+\lambda_{l}$

综上，有
$\argmax\limits_{D^{T}D=I}(\mathbf{d}_{1}^{T}XX^{T}\mathbf{d}_{1}+\mathbf{d}_{2}^{T}XX^{T}\mathbf{d}_{2}+...+\mathbf{d}_{l}^{T}XX^{T}\mathbf{d}_{l})=\lambda_{1}+\lambda_{2}+...+\lambda_{l}$
且取到最大值的条件是 $\mathbf{d}_{1}=\mathbf{v}_{1},...,\mathbf{d}_{l}=\mathbf{v}_{l}$ ，即 $D$ 为 $XX^{T}$ 的最大的 $l$ 个特征值对于的特征向量为列组成的矩阵。

不热爱技术只想发财

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
主成分分析（PCA）的数学推导

主成分分析是一个简单的机器学习算法，可以通过基础的线性代数知识推导。假设在Rn\mathbb{R}^{n}Rn空间中我们有mmm个点{x(1),...,x(m)}\{\mathbf{x}^{(1)},...,\mathbf{x}^{(m)}\}{x(1),...,x(m)}，我们希望对这些点进行有损压缩。有损压缩表示我们使用更少的内存，但损失一些精度去存储这些点。我们希望损失的精...
复制链接

扫一扫