主成分分析（Principle Component Analysis）

最新推荐文章于 2024-07-01 00:54:05 发布

原创最新推荐文章于 2024-07-01 00:54:05 发布

· 945 阅读

1 ·

版权

文章标签：

#机器学习 #pca降维

机器学习专栏收录该内容

12 篇文章

订阅专栏

本文深入解析主成分分析（PCA）算法，介绍PCA的数学原理、推导过程及应用，包括特征提取、数据降维和主成分选择等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主成分分析（Principle Component Analysis, PCA）是一种特征提取的方法，设 $\{X_i\}，i=1\sim p$ 是一组样本的输入，其中 $\displaystyle X_i=(x_{i1},x_{i2},\cdots,x_{in})^T$ ，PCA的目的是构造一个线性变换 $Y = A X + b$ 把 $n$ 维特征 $X$ 转成 $m$ 维特征 $Y$ ，实现数据的降维（ $\gt m$ ），每个量的维度为：

parameter	shape
$Y$	$(m, 1)$
$A$	$(m, n)$
$X$	$(n, 1)$
$b$	$(m, 1)$

PCA可以看成是只一层的有 $m$ 个神经元的神经网络：

自编码器（Auto-encoder）的思想也是对标PCA的：

直观来说，PCA的目标是寻找方差最大方向，并在该方向投影，例如取 $n = 2, m = 1$ ，则每个数据有2个维度的特征 $x = (x_1,x_2)^T$ ，将其投影到一个维度上，使数据在该维度上方差最大，这个方向就是 $y = y_1$ 如下图所示：

下面对PCA进行推导

设数据集为 $\{X_i\},i=1\sim p$ ，我们采用如下线性变换来进行PCA： $\begin{aligned}\begin{cases}Y=A(X-\overline{X}) \\ \\ \overline{X}=E(X)=\displaystyle\frac{1}{p}\sum_{i=1}^{p}X_i \end{cases}\end{aligned}$ 为了方便计算，设 $A=\begin{pmatrix}a_{1}\\a_{2}\\ \vdots\\a_{m}\end{pmatrix}$ ，其中 $\displaystyle a_i=(a_{i1},a_{i2},\cdots,a_{in})，i=1\sim m$ ，代入线性变换可得： $Y_i=\begin{pmatrix}a_{1}(X_i-\overline{X})\\a_{2}(X_i-\overline{X})\\ \vdots\\a_{m}(X_i-\overline{X})\end{pmatrix}=\begin{pmatrix}y_{i1}\\y_{i2}\\ \vdots\\y_{im}\end{pmatrix},\quad i=1\sim p\quad(y_{ij}是1\times1的矩阵也就是数)$ 我们已经说过，PCA是为了找到数据方差最大的 $m$ 个方向进行投影，所以我们的目标函数就是最大化 $Y_i$ 每个维度上数据的方差，即最大化数据序列 ${y_{ij}\}$ 的方差，其中 $i=1\sim p,j=1\sim m$ ，以 ${y_{i1}\}$ 为例,最大化的目标函数是：
$\begin{aligned} &\sum_{i=1}^{p}(y_{i1}-\displaystyle\overline{y_{i1}})^2\\ =&\displaystyle\sum_{i=1}^{p}y_{i1}^2 \\ =&\sum_{i=1}^{p}[a_1(X_i-\overline{X})]^2 \\ =&\displaystyle\sum_{i=1}^{p}a_1(X_i-\overline{X}) (X_i-\overline{X})^Ta_1^T\\ =&\displaystyle a_1[\sum_{i=1}^{p}(X_i-\overline{X}) (X_i-\overline{X})^T]a_1^T\\ =&a_i\sum a_1^T \end{aligned}$ 其中 $\displaystyle\sum=\displaystyle\sum_{i=1}^{p}(X_i-\overline{X}) (X_i-\overline{X})^T$ 称为协方差矩阵（covariance matrix），显然 $\displaystyle\sum=\displaystyle{\sum}^T$ 是对称矩阵，其维度为 $\times n$

为什么 $\displaystyle\overline{y_{i1}}=0$ ？
$\begin{aligned}\displaystyle\overline{y_{i1}}=& \displaystyle \frac{1}{p}\sum_{i=1}^p y_{i1}= \frac{1}{p}\sum_{i=1}^p a_{1}(X_i-\overline{X}) \\ = &\displaystyle\frac{a_1}{p}\displaystyle\sum_{i=1}^p (X_i-\overline{X})=\frac{a_1}{p}(\sum_{i=1}^p X_i-\sum_{i=1}^p\overline{X}) \\ =& \frac{a_1}{p}(\sum_{i=1}^p X_i-p\overline{X})=\frac{a_1}{p} \times \bold{O} \\ = & 0\end{aligned}$ 这里要记得 $\displaystyle \overline{X}=\frac{1}{p}\sum_{i=1}^pX_i$

此时还有个问题， $a_1$ 虽然确定了方向，但是 $a_1$ 的模的大小未定，如果 $a_1||$ 越大，则投影越大，所以要对 $a_1||$ 进行限制，至此，我们的问题就变成了这样：
$\begin{aligned} &\max \quad a_1 \sum a_1^T \\ &s.t.\quad \quad a_1a_1^T=||a_1||^2=1 \end{aligned}$ 我们可以用拉格朗日乘数法求解：
$\begin{aligned} 目标函数为\quad&\displaystyle L(a_1, \alpha) = a_1 \sum a_1^T-\alpha(a_1 a_1^T-1) \\\\ &\frac{\partial L}{\partial a_1}=2a_1\sum-2\alpha a_1=0\implies {\sum}^Ta_1^T={\sum}a_1^T=\alpha a_1^T \\ \\所以\quad& \alpha是\sum的特征值，对应特征向量为a_1^T\\ \\ \implies&a_1\sum a_1^T = a_1\alpha a_1^T=\alpha \\ \\由于要&最大化方差，所以\alpha应该是\sum的最大的特征值，记为\lambda_1 ，则a_1^T就是对应于\lambda_1的单位特征向量\end{aligned}$

拉格朗日乘数法计算过程
设 $a_1=(a_{11},a_{12},\cdots,a_{1n})$ , $a_1^T=\begin{pmatrix}a_{11}\\ a_{12} \\ \vdots \\ a_{1n}\end{pmatrix}$ ， $\displaystyle\sum=\begin{pmatrix} \sigma_{11}&\sigma_{12}&\cdots&\sigma_{1n}\\\sigma_{21}&\sigma_{22}&\cdots&\sigma_{2n}\\\vdots&\vdots&&\vdots\\\sigma_{n1}&\sigma_{n2}&\cdots&\sigma_{nn}\end{pmatrix}$ ，则：
$\begin{aligned}&\begin{cases}a_1 \displaystyle\sum =(\displaystyle\sum_{i=1}^{n}a_{1i}\sigma_{i1},\displaystyle\sum_{i=1}^{n}a_{2i}\sigma_{i2},\cdots,\displaystyle\sum_{i=1}^{n}a_{ni}\sigma_{in})\\ a_1\displaystyle\sum a_1^T=a_{11}\displaystyle\sum_{i=1}^{n}a_{1i}\sigma_{i1}+a_{12}\sum_{i=1}^{n}a_{2i}\sigma_{i2}+\cdots+a_{1n}\sum_{i=1}^{n}a_{ni}\sigma_{in}\end{cases}\\ \implies& \displaystyle \frac{\partial (a_1\displaystyle \sum a_1^T)}{\partial a_{1k}}=\sum_{i=1}^{n}a_{1i}\sigma_{ki}+\sum_{i=1}^{n}a_{1i}\sigma_{ik}，又\sum={\sum}^T\implies\sigma_{ij}=\sigma{ji}\\ \implies& \frac{\partial (a_1\displaystyle \sum a_1^T)}{\partial a_{1k}}=2\sum_{i=1}^{n}a_{1i}\sigma_{ik}=2a_1\begin{pmatrix}\sigma_{1k}\\ \sigma_{2k}\\ \vdots \\ \sigma_{nk}\end{pmatrix}\quad(k=1 \sim n)\\ \implies & \frac{\partial (a_1\displaystyle \sum a_1^T)}{\partial a_{1}} =\bigg(\frac{\partial (a_1\displaystyle \sum a_1^T)}{\partial a_{11}},\frac{\partial (a_1\displaystyle \sum a_1^T)}{\partial a_{12}},\cdots,\frac{\partial (a_1\displaystyle \sum a_1^T)}{\partial a_{1n}}\bigg)=2a_1\sum \\ \\ &a_1 a_1^T=\sum_{i=1}^{n}a_{1i}^2\\ \implies & \frac{\partial a_1 a_1^T}{\partial a_{1k}}= 2a_{1k}\quad(k=1\sim n) \\ \implies & \frac{\partial a_1 a_1^T}{\partial a_{1}}=2a_1\end{aligned}$

下面再来看看如何寻找第二个维度的最大方差，此时要把 ${y_{i1}\}$ 换成 ${y_{i2}\}$ ，和上面推导类似，就简化写了：

这里注意，限制条件多了一个正交条件，因为已经确定了最大方差的一个方向，现在要找一个除了它以外最大方差的方向，故要保证正交，找第三、第四等方向类似，都要与已经找到的方向正交.

$\begin{aligned} max\quad&\sum_{i=1}^{p}(y_{i2}-\displaystyle\overline{y_{i2}})^2=a_2 \sum a_2^T \\\\ s.t. \quad\displaystyle&a_2 a_2^T=||a_2||^2=1 \\ \\\displaystyle&a_1a_2^T=a_2a_1^T=0 \\ \\目标函数\quad&L(a_2,\alpha,\beta)=a_2\sum a_2^T-\alpha(a_2a_2^T-1)-\beta a_1 a_2^T \\\\ &\frac{\partial L}{\partial a_2}=2a_2\sum-2\alpha a_2-\beta a_1=0 \\ \\ \implies&2a_2\sum a_1^T-2\alpha a_2 a_1^T-\beta a_1 a_1^T=0 \\\\ \implies &2a_2\lambda_1a_1^T-\beta=0\\\\ \implies&\beta=0 \\\\ \implies&\frac{\partial L}{\partial a_2}=2a_2\sum-2\alpha a_2=0\\\\ \implies&\sum a_2^T=\alpha a_2^T \\ \\ 所以\alpha应该&是\sum的除\lambda_1以外最大的特征值，记为\lambda_2 ，则a_2^T就是对应于\lambda_2的单位特征向量 \end{aligned}$

PCA算法

求 $\displaystyle\sum=\displaystyle\sum_{i=1}^{p}(X_i-\overline{X}) (X_i-\overline{X})^T$
求 $\displaystyle\sum$ 的特征值 $\lambda_i$ 及其对应的单位特征向量 $a_i^T$ ，其中 $\lambda_{i-1}\ge\lambda_i$
写出矩阵 $A=\begin{pmatrix}a_{1}\\a_{2}\\ \vdots\\a_{m}\end{pmatrix}$
降维： $Y_i=A(X_i-\overline{X}),\quad i=1\sim p$

【注】
实际使用中，由于 $X$ 的每个维度数据的量纲可能不同，直接拿来用PCA可能会导致结果错误，故最好先Normalization，使均值为 $0$ ，方差为 $1$

如何选择 $k$ 个主成分

第 $k$ 个主成分 $y_k$ 的方差贡献率定义为 $y_k$ 的方差与所有方差之和的比，记作 $\eta_k$ ： $\eta_k=\displaystyle\frac{\lambda_k}{\displaystyle\sum_{i=1}^{m}\lambda_i}$ $k$ 个主成分 $y_1,y_2,\cdots,y_k$ 的累计方差贡献率定义为 $k$ 个方差之和与所有方差之和的比： $\sum_{i=1}^{k}\eta_i=\frac{\displaystyle\sum_{i=1}^{k}\lambda_i}{\displaystyle\sum_{i=1}^{m}\lambda_i}$
通常取 $k$ 使得累计方差贡献率达到规定的百分比以上，例如达到 $90\%$ 以上。