降维系列之 PCA 主成分分析

最新推荐文章于 2024-01-18 15:07:17 发布

BigYouYou

最新推荐文章于 2024-01-18 15:07:17 发布

阅读量868

点赞数 2

分类专栏：降维与多视角学习

本文链接：https://blog.csdn.net/qq_30565883/article/details/104194240

版权

降维与多视角学习专栏收录该内容

10 篇文章 24 订阅

订阅专栏

写这个系列主要目的是巩固和总结数学知识，也是希望以后查阅起来方便。降维方法是研究生期间我所在的组研究过很久的一套内容，我虽然没有搞这个方向，但是也受了很多熏陶。研一刚接触的时候老师讲啊讲，我基本只做了笔记，啥都没懂，数学基础欠缺太多。后来慢慢一一补齐，总算是大概能理解下来，但还是有些许地方心中存疑。到现在熟悉了这些东西的基本思路，也看了很多论文和数学，就有了一些自己的想法。一切就从组内的入门算法——PCA（主成分分析）开始。

优化目标

机器学习中可以用数字表示特征，用数字组成的向量表示样本，用矩阵表示样本集合，这里的维度指的就是向量的长度，或是样本的特征数。因为高维度的数据给存储和运算带来了不便，所以要做降维，降维就是把高维度的样本数据降到低维度，降维方法研究的目标就是在降维的过程中保持原始样本的一些特性，或者使降维后的数据具有某些更好的性质。本文介绍的PCA简单有效，是最经典应用最广泛的降维方法。

假设现有样本集合 $X\in \mathbb{R}^{D\times n}$ ，其中 $D$ 表示样本的原始维度， $n$ 表示样本数量， $X=[x_1,x_2,\cdots,x_n]$ ， $x_i\in \mathbb{R}^{D\times 1}$ 是 $D$ 维的列向量，表示单个样本。显然， $X$ 的每一列是一个样本， $X$ 的每一行是一个特征。

PCA寻找一个投影矩阵来完成降维任务，即 $Y=W^TX$ ， $Y\in \mathbb{R}^{d\times n}$ 是降完维之后各个样本组成的矩阵， $d$ 是降维之后的维度数，要求 $W\in \mathbb{R}^{D\times d}$ 是单位投影矩阵，其每一列的模都为1，且不同列的内积为0，即 $W^TW=I$ 。PCA的优化目标是投影方差最大化，它希望各样本投影之后越分散越好，并用方差来度量分散程度。分别举 $d = 1$ 和 $d > 1$ 两种情况来说明。

若 $d = 1$ ，这里把投影矩阵写作 $w\in \mathbb{R}^{D\times 1}$ ，是一个列向量，降完维后 $y\in \mathbb{R}^{1\times n}=w^TX$ ，样本维度数为1，每个样本都只用一个数字表示。在这一个维度上，方差是容易计算的：
$\max_w (y-\overline{y})(y-\overline{y})^T \\ = w^T(X-\overline{X})(X-\overline{X})^Tw \tag{1} \\ s.t.\ w^Tw=1$

方差前面有个系数 $\frac{1}{n-1}$ ，因为是个常数对优化无影响，所以直接忽略了。
而 $X-\overline{X}$ 这一步称为中心化，一般放在PCA的第一步来做，用 $X-\overline{X}$ 的结果来代替 $X$ ，使其每一行的均值都为0，这就是PCA要做中心化的原因：
$X=X-\overline{X}=[x_1-\overline{x},x_2-\overline{x},\cdots,x_n-\overline{x}] \\ \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i$
因此公式 $(1)$ 就变为：
$\max_w w^TXX^Tw \\ s.t.\ w^Tw=1 \tag{2}$
若 $d > 1$ ，在一个维度上的方差容易计算，现在降维后的维度数 $> 1$ ，这里投影矩阵用 $W\in \mathbb{R}^{D\times d}$ ，投影后的样本用 $Y\in \mathbb{R}^{d\times n}=W^TX$ 。PCA的观点是最大化各维度上的方差之和：
$\max_W \sum_{i=1}^d W_i^TXX^TW_i \\ =\max_W tr(W^TXX^TW) \\ s.t.\ W^TW=I \tag{3}$

$W_i$ 表示 $W$ 的第 $i$ 列。

一般在论文中只写出 $d = 1$ 的形式，是为了方便表示和理解，这里把稍复杂的 $d > 1$ 的形式也写出来，方便理解算法全貌。

Lagrangian乘子法求解

公式 $(2)$ 和公式 $(3)$ 都是等式约束的凸优化问题，可以用Lagrangian乘子法解决。注意Lagrangian乘子法要求优化目标必须是凸函数，怎么证明是凸函数？很简单，二阶导是协方差矩阵，而协方差矩阵是半正定的（证明可以看这里
），因此是凸函数。矩阵求导公式及其定义和理解在这里，凸函数的定义和判定在这里。

$d = 1$ 时的求解

$d = 1$ 时，对公式 $(2)$ 列Lagrangian乘子法，并分别令其对 $w$ 和 $\lambda$ 的偏导为0：
$L(w,\lambda)=w^TXX^Tw+\lambda (1-w^Tw) \\ \frac{\partial}{\partial w}L(w,\lambda)=(XX^T+XX^T)w-2\lambda Iw=0 \\ \frac{\partial}{\partial \lambda}L(w,\lambda)=1-w^Tw=0$

可得：
$XX^Tw=\lambda w \\ w^Tw=1$

$\lambda \in \mathbb{R}$ 。注意Lagrangian乘子法偏导为0的点只是取到最值的必要条件，不是充分条件。得到的两个式子，第二个是原始的等式约束，第一个是特征值特征向量的形式， $w$ 和 $\lambda$ 是 $XX^T$ 的对应的特征向量和特征值，显然有 $D$ 组，因为 $XX^T$ 是 $D\times D$ 的正定矩阵。那么取哪一组时能使公式 $(2)$ 最大化呢？我们代回公式 $(2)$ ：
$w^TXX^Tw=w^T\lambda w=\lambda w^Tw=\lambda$

也就是说 $XX^Tw=\lambda w$ 成立时 $w^TXX^Tw$ 的取值就为 $\lambda$ 。这就告诉我们要取最大的 $\lambda$ ，即 $w$ 应该取 $XX^T$ 最大的特征值对应的特征向量，这样就解出来了。

$d > 1$ 时的解1

$d > 1$ 时，公式 $(3)$ 可以写作：
$\max_W \sum_{i=1}^d W_i^TXX^TW_i \\ s.t.\ W_i^TW_i=1,W_i^TW_j=0 \tag{4}$

列Lagrangian乘子法：
$L(W,\lambda,\rho)= \sum_{i}^d[ W_i^TXX^TW_i +\lambda_i(1-W_i^TW_i)]-\sum_{j\neq i}^d \rho_jW_i^TW_j$

并分别令其对 $W_i$ 和 $\lambda$ 的偏导为0：
$\frac{\partial}{\partial W_i} L(W,\lambda,\rho)=2XX^TW_i -2\lambda_iW_i- \sum_{j\neq i}^d \rho_j W_j =0\\ \frac{\partial}{\partial \lambda_i} L(W,\lambda,\rho)= 1-W_i^TW_i=0\\ \frac{\partial}{\partial \rho_j} L(W,\lambda,\rho)= W_i^TW_j=0\\$

显然后二者是两个等式约束，第一个式子可得：
$2XX^TW_i=2\lambda_iW_i+\sum_{j\neq i}^d \rho_j W_j \tag{5}$

这是个必要条件，代回公式 $(4)$ ：
$\sum_{i=1}^d W_i^TXX^TW_i \\ =\sum_{i=1}^d [W_i^T(\lambda_iW_i+ \frac{1}{2} \sum_{j\neq i}^d\rho_j W_j)] \\ =\sum_{i=1}^d[\lambda_i W_i^T W_i+\frac{1}{2}\sum_{j\neq i}^d \rho_j W_i^T W_j] \\ =\sum_{i=1}^d\lambda_i$

在公式 $(5)$ 左右同乘 $W_i^T$ ：
$2W_i^TXX^TW_i=2\lambda_i W_i^TW_i+\sum_{j\neq i}^d \rho_j W_i^T W_j \\ \sum_{j\neq i}^d \rho_j W_i^T W_j =0 \\ W_i^TXX^TW_i=\lambda_i W_i^TW_i ,\ XX^TW_i=\lambda_i W_i$

这样就证明了所有的 $W_i$ 都应该是 $XX^T$ 的特征向量， $\lambda_i$ 是 $W_i$ 对应的特征值，求解公式 $(4)$ 等价于最大化各个 $\lambda_i$ 之和。
因为 $XX^T$ 是个对称矩阵，其各个特征向量恰好就是相互正交的，因此取 $XX^T$ 的前 $d$ 大的特征值，并做单位化即可。
这种解法是我想了好久想的，算是解决了我的很多疑问。这里面一个关键点在于，我们确信 $W^i$ 不可能是全0向量，因为那样毫无意义。

$d > 1$ 时的解2

再给另一种解法，从这里开始：
$\max_W tr(W^TXX^TW) \\ s.t.\ W^TW=I \tag{3}$

Lagrangiana乘子法：
$L(W,\lambda)=tr(W^TXX^TW)+tr[\lambda(I-W^TW)]$

$\lambda$ 为对角矩阵。令偏导为0：
$\frac{\partial}{\partial W}L(W,\lambda)=2XX^TW-2W\lambda =0 \\ XX^TW=W\lambda \\ \frac{\partial}{\partial \lambda}L(W,\lambda)=I-W^TW=0$