机器学习：主成分分析（PCA）

JacksonKim

已于 2024-04-07 00:06:09 修改

阅读量825

点赞数 1

分类专栏：机器学习文章标签：人工智能算法深度学习

于 2021-11-28 12:03:38 首次发布

本文链接：https://blog.csdn.net/qq_40765537/article/details/121582274

版权

机器学习专栏收录该内容

39 篇文章 17 订阅

订阅专栏

1. 什么是主成分分析？（Principle Component Analysis，PCA)

设数据 $X=(x_1,x_2,..x_n)$ 具有n个属性（还有很多其他命名，比如分量，指标），属性值分别是 $x_1,x_2,..x_n$

那么主成分分析就是把原来具有相关关系的多个指标（属性）简化为少数几个新的综合指标的多元统计方法。

这里的主成分就是指的是原始指标（属性）形成的几个新指标。

主成分与原始变量之间的关系是：

(1)主成分保留了原始变量绝大多数信息。
(2)主成分的个数大大少于原始变量的数目
(3)各个主成分之间互不相关。
(4)每个主成分都是原始变量的线性组合。

容易知道，想要获得低维的向量，可以对原始的高维空间做一个线性变换，即：
$\mathbf{Z}=\mathbf{W^TX}$

其中 $X=(x_1,x_2,...x_m) \in \mathbb{R}^{d\times m}$ , $\mathbf{W} \in \mathbb{R}^{d \times d^{\prime}}$ , $\mathbf{Z} \in \mathbb{R}^{d^{\prime} \times m}$

这个W也可以看成是低维空间的标准正交基，因为根据标准正交基的性质 $W^T=W^{-1}$

于是我们有

$X = W Z$

也就是说原来的X在新的基底W下的坐标表示为Z。

2. 如何进行主成分分析

主成分分析的目标就是寻得合适的 $\mathbf{W}$ ，使得高维空间的样本映射到低维空间空间，并使其满足以下原则。

主成分分析的原则：

最大可分性：样本点在低维空间中的投影能过尽可能地分开。

根据这个原则，容易想到，我们只要令在低维空间中的坐标表示Z的方差越大越好。即：
$\begin{aligned} \max\limits_{W} \sum _i ||z_i-0||^2 &= \max\limits_{W} \sum _i tr(z_iz_i^T)=\max\limits_{W} \sum_{i} tr(\mathbf{W}^{\mathrm{T}} \boldsymbol{x}_{i} \boldsymbol{x}_{i}^{\mathrm{T}} \mathbf{W} )\\ &=\max\limits_{W} tr(\mathbf{W}^{\mathrm{T}}\sum_{i} \boldsymbol{x}_{i} \boldsymbol{x}_{i}^{\mathrm{T}} \mathbf{W} )\\ \end{aligned}$

于是我们的优化目标变成：
$\begin{aligned} &\max _{\mathbf{W}} \operatorname{tr}\left(\mathbf{W}^{\mathrm{T}} \mathbf{X X}^{\mathrm{T}} \mathbf{W}\right) \\ &\text { s.t. } \mathbf{W}^{\mathrm{T}} \mathbf{W}=\mathbf{I} \end{aligned}$

因此使用拉格朗日算子法，我们有
$L(\mathbf W,\Lambda)=-\text { tr }(\mathbf W^{\mathrm{T}} \mathbf X\mathbf X^{\mathrm{T}} \mathbf W)+\text { tr }\left(\Lambda^{\mathrm{T}} (\mathbf W^{\mathrm{T}} \mathbf W-\mathbf I)\right)$

以下求解内容来自南瓜书，此书甚佳，可看原书推导（地址见参考资料）

对拉格朗日函数关于 $\mathbf{W}$ 求导可得 $\begin{aligned} \cfrac{\partial L(\mathbf W,\Lambda)}{\partial \mathbf W}&=\cfrac{\partial}{\partial \mathbf W}\left[-\text { tr }(\mathbf W^{\mathrm{T}} \mathbf X\mathbf X^{\mathrm{T}} \mathbf W)+\text { tr }\left(\Lambda^{\mathrm{T}} (\mathbf W^{\mathrm{T}} \mathbf W-\mathbf I)\right)\right] \\ &=-\cfrac{\partial}{\partial \mathbf W}\text { tr }(\mathbf W^{\mathrm{T}} \mathbf X\mathbf X^{\mathrm{T}} \mathbf W)+\cfrac{\partial}{\partial \mathbf W}\text { tr }\left(\Lambda^{\mathrm{T}} (\mathbf W^{\mathrm{T}} \mathbf W-\mathbf I)\right) \ \end{aligned}$

由矩阵微分公式 $\cfrac{\partial}{\partial \mathbf{X}} \text { tr }(\mathbf{X}^{\mathrm{T}} \mathbf{B} \mathbf{X})=\mathbf{B X}+\mathbf{B}^{\mathrm{T}} \mathbf{X},\cfrac{\partial}{\partial \mathbf{X}} \text { tr }\left(\mathbf{B X}^{\mathrm{T}} \mathbf{X}\right)=\mathbf{X B}^{\mathrm{T}} +\mathbf{X B}$ （对这个不熟悉的小伙伴可以参考数学资源分享：矩阵求导公式

可得 $\begin{aligned} \cfrac{\partial L(\mathbf W,\Lambda)}{\partial \mathbf W}&=-2\mathbf X\mathbf X^{\mathrm{T}} \mathbf W+\mathbf{W}\Lambda+\mathbf{W}\Lambda^{\mathrm{T}} \\ &=-2\mathbf X\mathbf X^{\mathrm{T}} \mathbf W+\mathbf{W}(\Lambda+\Lambda^{\mathrm{T}} ) \\ &=-2\mathbf X\mathbf X^{\mathrm{T}} \mathbf W+2\mathbf{W}\Lambda \end{aligned}$

令 $\cfrac{\partial L(\mathbf W,\Lambda)}{\partial \mathbf W}=\mathbf 0$ 可得
$\begin{aligned} -2\mathbf X\mathbf X^{\mathrm{T}} \mathbf W+2\mathbf{W}\Lambda&=\mathbf 0\ \mathbf X\mathbf X^{\mathrm{T}} \mathbf W&=\mathbf{W}\Lambda\ \end{aligned}$ 将 $\mathbf W$ 和 $\Lambda$ 展开可得 $\mathbf X\mathbf X^{\mathrm{T}} \boldsymbol w_i=\lambda i\boldsymbol w_i,\quad i=1,2,...,d^{\prime}$ 显然，此式为矩阵特征值和特征向量的定义式，其中 $\lambda_i,\boldsymbol w_i$ 分别表示矩阵 $\mathbf X\mathbf X^{\mathrm{T}}$ 的特征值和单位特征向量。由于以上是仅考虑约束 $\boldsymbol{w}i^{\mathrm{T}}\boldsymbol{w}i=1$ 所求得的结果，而 $\boldsymbol{w}i$ 还需满足约束 $\boldsymbol{w}{i}^{\mathrm{T}}\boldsymbol{w}{j}=0(i\neq j)$ 。观察 $\mathbf X\mathbf X^{\mathrm{T}}$ 的定义可知， $\mathbf X\mathbf X^{\mathrm{T}}$ 是一个实对称矩阵，实对称矩阵的不同特征值所对应的特征向量之间相互正交，同一特征值的不同特征向量可以通过施密特正交化使其变得正交，所以通过上式求得的 $\boldsymbol w_i$ 可以同时满足约束 $\boldsymbol{w}i^{\mathrm{T}}\boldsymbol{w}i=1,\boldsymbol{w}{i}^{\mathrm{T}}\boldsymbol{w}{j}=0(i\neq j)$ 。（此处推理依照线性代数或矩阵分析中的定理）

根据拉格朗日乘子法的原理可知，此时求得的结果仅是最优解的必要条件，而且 $\mathbf X\mathbf X^{\mathrm{T}}$ 有 $d$ 个相互正交的单位特征向量，所以还需要从这 $d$ 个特征向量里找出 $d^{\prime}$ 个能使得目标函数达到最优值的特征向量作为最优解。将 $\mathbf X\mathbf X^{\mathrm{T}} \boldsymbol w_i=\lambda i\boldsymbol w_i$ 代入目标函数可得 $\begin{aligned} \min\limits_{\mathbf W}-\text { tr }(\mathbf W^{\mathrm{T}} \mathbf X\mathbf X^{\mathrm{T}} \mathbf W) &=\max\limits_{\mathbf W}\text { tr }(\mathbf W^{\mathrm{T}} \mathbf X\mathbf X^{\mathrm{T}} \mathbf W) \\ &=\max\limits_{\mathbf W}\sum_{i=1}^{d^{\prime}}\boldsymbol w_i^{\mathrm{T}}\mathbf X\mathbf X^{\mathrm{T}} \boldsymbol w_i \\ &=\max\limits_{\mathbf W}\sum_{i=1}^{d^{\prime}}\boldsymbol w_i^{\mathrm{T}}\cdot\lambda i\boldsymbol w_i \\ &=\max\limits_{\mathbf W}\sum_{i=1}^{d^{\prime}}\lambda i\boldsymbol w_i^{\mathrm{T}}\boldsymbol w_i \\ &=\max\limits_{\mathbf W}\sum_{i=1}^{d^{\prime}}\lambda _i \ \end{aligned}$

显然，此时只需要令 $\lambda_1,\lambda_2,...,\lambda_{d^{\prime}}$ 和 $\boldsymbol{w}{1}, \boldsymbol{w}{2}, \ldots, \boldsymbol{w}_{d^{\prime}}$ 分别为矩阵 $\mathbf X\mathbf X^{\mathrm{T}}$ 的前 $d^{\prime}$ 个最大的特征值和单位特征向量就能使得目标函数达到最优值。

至此，我们找到了满足目标原则的W，使得样本从高维空间映射到低维空间，也就是完成了主成分分析。

参考资料:

[1] 《机器学习》周志华
[2]《南瓜书PumpkinBook》

JacksonKim

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习：主成分分析（PCA）

3. 什么是主成分分析？（Principle Component Analysis，PCA)设数据X=(x1,x2,..xn)X=(x_1,x_2,..x_n)X=(x1,x2,..xn)具有n个属性（还有很多其他命名，比如分量，指标），属性值分别是x1,x2,..xnx_1,x_2,..x_nx1,x2,..xn那么主成分分析就是把原来具有相关关系的多个指标（属性）简化为少数几个新的综合指标的多元统计方法。这里的主成分就是指的是原始指标（属性）形成的几个新指标。主成分与原始变量之间的关
复制链接

扫一扫