详细推导PCA算法（包括算法推导必备的知识）

最新推荐文章于 2025-04-09 23:28:36 发布

菜且凶残_2017

最新推荐文章于 2025-04-09 23:28:36 发布

阅读量2.3k

点赞数 6

分类专栏：机器学习

原文链接：https://blog.csdn.net/QQ2627866800/article/details/86656237

版权

机器学习专栏收录该内容

30 篇文章

订阅专栏

本文深入讲解了PCA（主成分分析）的基本原理，包括其优化目标、理论依据，并详细推导了PCA的过程，最后总结了PCA的具体实施步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言
该文章转载自
https://blog.csdn.net/QQ2627866800/article/details/86656237
自己做了点修订
在这里插入图片描述

1. PCA优化目标

用较少特征地数据表达较多特征地数据
PCA推导有两种主要思路：
1 最大化数据投影后的的方差（让数据更分散）
2 最小化投影造成的损失
下图中旋转的是新坐标轴，每个数据点在该坐标轴上垂直投影，最佳的坐标轴为数据投影后各点数据之间距离最大。
在这里插入图片描述

2.理论依据

2.1 矩阵换基底

坐标变换的目标是，找到一组新的正交单位向量，替换原来的正交单位向量。
$\text { 假设存在向量 } \vec{a}=\left[\begin{array}{l} 3 \\ 2 \end{array}\right], \text { 要将其变换为以 } \vec{u}=\left[\begin{array}{l} \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{array}\right], \vec{v}=\left[\begin{array}{c} -\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{array}\right] \text { 为新基底地坐标上, 求在新坐标系中的坐标 }$
在这里插入图片描述
$\because$ 向量 $\vec{a}$ 在向量 $\vec{u}$ 上的投影距离 $\mathrm{s}:$
$s=\|\vec{a}\| \cdot \cos \theta=\frac{\vec{a} \cdot \vec{u}}{\|\vec{u}\|}=\vec{a} \cdot \vec{u}$
其中： $\theta$ 表示两个向量之间的夹角
$\therefore a_{u}=\vec{u}^{T} \cdot \vec{a}, a_{v}=\vec{v}^{T} \cdot \vec{a}$
$\therefore$ 向量 $\vec{a}$ 在新坐标系中的坐标可以表示为:
$\vec{a}_{n e w}=\left[\begin{array}{ll} \vec{u} & \vec{v} \end{array}\right]^{T} \cdot \vec{a}=\left[\begin{array}{l} \vec{u}^{T} \cdot \vec{a} \\ \vec{v}^{T} \cdot \vec{a} \end{array}\right]$
如果矩阵 $\mathrm{A}$ 的列向量分别表示原来坐标系中的点, 那么在新坐标系中的坐标为：
$A_{n e w}=\left[\begin{array}{ll} \vec{u} & \vec{v} \end{array}\right]^{T} \cdot A$

2.2 拉格朗日乘子法

拉格朗日乘子法主要提供了一种求解函数在约束条件下极值的方法。下面还是通过一个例子说明。假设存在一个函数 $f (x, y),$ 求该函数在 $g (x, y) = c$ 下的极值 (可以是极大, 也可以极小)
在这里插入图片描述
通过观察我们发现，在极值点的时候两个函数必然相切, 即此时各自的导数成正比, 从而：
$\begin{array}{l} \frac{\partial f}{\partial x}=\lambda \frac{\partial g}{\partial x} \\ \frac{\partial f}{\partial y}=\lambda \frac{\partial g}{\partial y} \\ g(x, y)=c \end{array}$
通过联立上述三个公式, 既可以求出最终结果。拉格朗日算子的主要思路同上, 不过他假设了一个新的函数：
$\lambda)=f(x, y)+\lambda[c-g(x, y)]$
然后分解求：
$\begin{array}{l} \frac{\partial F}{\partial x}=0 \\ \frac{\partial F}{\partial y}=0 \\ \frac{\partial F}{\partial \lambda}=0 \end{array}$
从而完成求解过程

2.3 协方差矩阵

假设有一组数据：
$\begin{array}{c|ccc} \text { 样本编号 } & \text { 变量 } x \text { (如发传单数量) } & \text { 变量 } y \text { (如购买数量) } & \text { 变量 } z \text { (如购买总价 }) \\ \hline 1 & 1 & 2 & 3 \\ 2 & 35 & 25 & 55 \\ \cdots & \cdots & \cdots & \cdots \end{array}$
协方差研究的目的是变量 (特征) 之间的关系, 也就是上表中的发传单数量、购买数量、购买总额之间的相关情况上表数据用矩阵表示为:
$X=\left[\begin{array}{lll} 1 & 35 & \cdots \\ 2 & 25 & \cdots \\ 3 & 55 & \cdots \end{array}\right]$
那么两两变量之间的关系：
$\begin{array}{l} \operatorname{cov}(x, y)=E[(1-E(x))(2-E(y))+(35-E(x))(25-E(y))+\cdots] \\ \operatorname{cov}(x, z)=E[(1-E(x))(3-E(z))+(35-E(x))(55-E(z))+\cdots] \end{array}$
如果 $E (x) = E (y) = E (z) = 0$ (可以通过数据初始化实现，即减去平均值)，那么上述的协方差关系可以用如下矩阵乘法表示:
$\operatorname{cov}(X)=\frac{1}{m} X X^{T}=\left[\begin{array}{lll} \operatorname{cov}(x, x) & \operatorname{cov}(x, y) & \operatorname{cov}(x, z) \\ \operatorname{cov}(y, x) & \operatorname{cov}(y, y) & \operatorname{cov}(y, z) \\ \operatorname{cov}(z, x) & \operatorname{cov}(z, y) & \operatorname{cov}(z, z) \end{array}\right]$

2.4 特征向量和奇异值分解

2.4.1 特征向量

在这里插入图片描述

假设：左侧矩形由 $\left[\begin{array}{ll}i & j\end{array}\right]=\left[\begin{array}{ll}1 & 0 \\ 0 & 1\end{array}\right]$ 定义, 右侧矩形由 $\left[\begin{array}{ll}\vec{i}^{\prime} & \vec{j}^{\prime}\end{array}\right]=\left[\begin{array}{cc}2 & 0 \\ 0 & 0.5\end{array}\right]$ 定义。
根据 2.1 矩阵拉伸变换的结果, 变换矩阵 $A=\left[\begin{array}{c}\vec{u}^{T} \\ \vec{v}^{T}\end{array}\right]=\left[\begin{array}{cc}2 & 0 \\ 0 & 0.5\end{array}\right],$ 即 :
$\cdot\left[\begin{array}{ll} i & \vec{j} \end{array}\right]=\left[\begin{array}{ll} \vec{i}^{\prime} & \vec{j}^{\prime} \end{array}\right]$
在应用变换矩阵变换时，我们发现存在与上图中红色向量平行的向量 $\vec a ,$ 他们总满足：
$\cdot \vec{a} / / \vec{a}$
即：
$\cdot \vec{a}=\lambda \cdot \vec{a}$
所以：红色的特征向量不受变换矩阵的影响, 仍保持原来的方向, 我们称这类向量为变换矩阵A的特征向量, 对应的 Vambda 为特征值。又因为特征向量有很多个, 即 :
$\cdot \vec{a}_{i}=\lambda_{i} \cdot \vec{a}_{i}$
所以:
$\cdot\left[\begin{array}{lll} \vec{a}_{1} & \vec{a}_{2} & \cdots \end{array}\right]=\left[\begin{array}{lll} \vec{a}_{1} & \vec{a}_{2} & \cdots \end{array}\right] \cdot\left[\begin{array}{lll} \lambda_{1} \\ & \lambda_{2} \\ & & \ddots \end{array}\right] \Rightarrow A=Q \cdot \Sigma \cdot Q^{-1}$
其中：Q的列向量都是A变换矩阵的特征向量
另外，在做旋转变换时，要求变换前后的坐标维度不发生改变, 即A须为方阵
综上：如果方阵A满足 $\cdot \Sigma \cdot Q^{-1},$ 那么Q为特征向量, $\Sigma$ 为对应的特征值

2.4.2 奇异值分解

奇异值分解（svd: singular value decomposition ) 定义：对于任意的矩阵A，存在：
$A_{m \times n}=U_{m \times m} \cdot \Sigma_{m \times n} \cdot V_{n \times n}^{T}$ 其中:
$\begin{array}{l} U^{T} \cdot U=I_{m} \\ V^{T} \cdot V=I_{n} \end{array}$ 即：U的列向量两两正交且模为1， V列向量两两正交且模为1，即：
$U^{T}=U^{-1}$ $V^{T}=V^{-1}$

2.4.3 特征向量和奇异值分解的关系

对于任意矩阵 $\mathrm{A},$ 对A做svd有：
$A^{T}=U \Sigma V^{T} \cdot V \Sigma U^{T}=U \Sigma^{2} U^{-1}$
令 $\Sigma^{\prime}=\Sigma^{2},$ 则:
$A^{T}=U \Sigma^{\prime} U^{-1}$
满足 $\Sigma Q^{-1}$ 特征向量定义
所以 AA^T 能实现特征分解, 又因为：
$A^{T}=\underbrace{U^{\prime \prime} \Sigma^{\prime \prime} V^{\prime \prime T}}_{s v d}$
所以:
$\begin{array}{c} U=U^{\prime \prime} \\ \Sigma^{\prime}=\Sigma^{\prime \prime} \\ U^{-1}=V^{\prime \prime} \Rightarrow U=V^{\prime \prime} \end{array}$
因此：对 $A A^{T}$ 做SVD，那么得到的U"列向量为特征向量 (对应A的U矩阵)， $\Sigma^{\prime \prime}$ 为特征值对角阵
同理: 对 $A^{T} A$ 做SVD，那么得到的U"列向量为特征向量 (对应A的V矩阵)， $\Sigma^{\prime \prime}$ 为特征值对角矩阵

3 PCA

3.1 PCA推导

PCA的目标是找到一组新的正交基 $\left\{u_{1}, u_{2}, \cdots, u_{k}\right\} \quad$ (从n维下降到k维)，使得n维数据点在该正交基构成的平面上投影后，投影数据点间的距离最大, 即数据间的方差最大。如果数据在每个正交基上投影后的方差最大, 那么同样满足在正交基所构成的平面上投影距离最大。

根据2.1，先考虑一个正交基 $u_{j},$ 数据点 $x_{i}$ 在该基底上的投影距离为 $x_{i}^{T} \cdot u_{j},$ 所以所有的 $m$ 个 $n$ 维样本数据在该基底上投影的方差 $J_{j}$ 为：
$J_{j}=\frac{1}{m} \sum_{i=1}^{m}\left(x_{i}^{T} u_{j}-x_{\text {center}}^{T} u_{j}\right)^{2}$ $J_{j}=\frac{1}{m} \sum_{i=1}^{m}\left(x_{i}^{T} u_{j}\right)^{2}=\frac{1}{m} \sum_{i=1}^{m}\left(u_{j}^{T} x_{i} \cdot x_{i}^{T} u_{j}\right)=u_{j}^{T} \cdot \frac{1}{m} \sum_{i=1}^{m}\left(x_{i} x_{i}^{T}\right) \cdot u_{j}$ 所以: $J_{j}=u_{j}^{T} \cdot \frac{1}{m}\left(x_{1} x_{1}^{T}+x_{2} x_{2}^{T}+\cdots+x_{m} x_{m}^{T}\right) \cdot u_{j}=u_{j}^{T} \cdot \frac{1}{m}\left(\left[\begin{array}{lll} x_{1} & \cdots & x_{m} \end{array}\right] \cdot\left[\begin{array}{c} x_{1} ^{T}\\ \vdots \\ x_{m}^{T} \end{array}\right]\right) \cdot u_{j}==\frac{1}{m} u_{j}^{T} X X^{T} u_{j}$
假设 $S_{n\times n}=\frac{1}{m} X X^{T},$ 则 $J_{j}=u_{j}^{T} \cdot S \cdot u_{j},$ 根据PCA目标, 我们需要求解 $J_{j}$ 最大时对应的 $u_{j}$ 根据 2.2 中的拉格朗日算子 (求极值) 求解：
$J_{j}=u_{j}^{T} S u_{j}$ $\text { s.t. } u_{j}^{T} u_{j}=1$
则构造函数：
$F\left(u_{j}\right)=u_{j}^{T} S u_{j}+\lambda_{j}\left(1-u_{j}^{T} u_{j}\right)$
求解 $\frac{\partial F}{\partial u_{j}}=0,$ 得:
$2S \cdot u_{j}-2 \lambda_{j} \cdot u_{j}=0 \Rightarrow S u_{j}=\lambda_{j} u_{j}$
结合2.4.1则：当 $u_{j} 、 \lambda_{j}$ 分别为S矩阵的特征向量、特征值时, $J_{j}$ 有极值, 把上述结果带回公式得 $J_{j}$ 最大值:
$J_{j_{m}}=u_{j}^{T} \lambda_{j} u_{j}=\lambda_{j}$
所以对于任意满足条件的正交基 $\left\{u_{1}, u_{2}, \cdots, u_{k}\right\} \quad$ ，对应的数据在上面投影后的方差值为S矩阵的特征向量, 从而：
$J_{\max }=\sum_{j=1}^{k} \lambda_{j}, \lambda \text { 人大到小排序 }$
所以投影正交基为S的特征向量中的前k个最大特征值对应的特征向量。接下来对S进行特征分解, 根据2.4.3特征向量和svd的关系结论, S的特征向量集合：
$\text { of } \operatorname{svd}(S)=U \text { of } \operatorname{svd}\left(\frac{1}{m} X X^{T}\right)$ 另外, 由于 $S=\frac{1}{m} X X^{T}$ 由于X已0均值处理, 根据2.3 协方差矩阵定义：S为数据集X的协方差矩阵。综上, 即可得到满足投影后数据距离最大的新的正交基 $\left\{u_{1}, u_{2}, \cdots, u_{k}\right\}$ 因此降维后的数据为：
$X_{n e w_{k \times m}}=\left[\begin{array}{c}u_{1}^{T^{\prime}} \\u_{2}^{T} \\\vdots \\u_{k}^{T} \end{array}\right]_{k \times n} \cdot X_{n \times m}$

3.2 PCA过程总结

PCA流程如下：

初始化 $X,$ 使得所有样本之间的特征值均值为0, 同时应用feature scaling, 缩放到-0.5 $\sim 0.5$ ;
计算X的协方差矩阵S;
对S进行SVD分解, U即我们要求的新坐标系集合, $\Sigma$ 为特征值集合 (计算时特征值都会大于0, 且结果会从小到大排列) ;
按照特征值从大到小排序, 要降低为k维, 那么取前k个特征值对应的特征向量, 就是新的k个坐标轴
把X映射到新的坐标系中, 完整降维操作;
根据之前的公式, 做PCA投影后, 投影数据的方差：
$r_{X_{p r o j e c t}}=\sum_{j=1}^{k} J_{j}=\sum_{j=1}^{k} \lambda_{j}$
又因为：数据从n维投影新的n维的坐标系, 方差不会发生改变 (向量的模长度相等且为1，可以用2D坐标系投影到45-135 度坐标系验证)，即：
$r_{X}=V a r_{X_{\text {project }}}=\sum_{j=1}^{n} J_{j}=\sum_{j=1}^{n} \lambda_{j}$
即：X的协方差矩阵的特征值和对应X的方差