从数学理解主成分分析

最新推荐文章于 2022-03-21 08:28:52 发布

置顶 LittleZeyuan

最新推荐文章于 2022-03-21 08:28:52 发布

阅读量173

点赞数 1

分类专栏：课程学习文章标签：机器学习

本文链接：https://blog.csdn.net/LittleCAIyuan/article/details/112849501

版权

课程学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文进行出发点是一个包含N个对象的 ${y_{n}}$ 的数据集，每一个对象是一个M维的向量。

基于主成分分析，我们希望将M维数据转化为D维数据。PCA定义了一组线性投影，每个投影维度都是原始数据的一个线性组合。即如果从M维投影到D维，PCA定义D个向量 ${w_{d}}$ (每个都是M维)，其中投影空间的第d个元素 ${x_{nd}}$ (其中 ${x_{n}}=[x_{n1},x_{n2},\dots,x_{nD}]$ ),使用下式计算：
$x_{n d}=\mathbf{w}_{d}^{\top} \mathbf{y}_{n}$

学习的主要任务是选择将多少数据数据维度投影到D，然后为每一个原始数据维度选择一个投影向量 ${w_{d}}$

需满足如下约束：

选择投影的条件：方差最大化（表示最多的信息）
投影后向量互不相关：投影互相垂直
$\mathbf{w}_{i}^{\top} \mathbf{w}_{j}=0, \forall j \neq i$
投影后向量的长度不发生改变（ ${||w_{i}||=1}$ ）

正式推导

为便于推导给出假设条件（可以通过减去 ${\overline{\mathbf{y}}}$ 得到满足）：
$\overline{\mathbf{y}}=\frac{1}{N} \sum_{n=1}^{N} \mathbf{y}_{n}=0$
从D=1维度开始，此时仅需要找到一个 ${w}$ 向量，此时投影结果为一数值。
$x_{n}=\mathbf{w}^{\top} \mathbf{y}_{n}$
故 ${\sigma_{x}^{2}}$ 可表示为：
$\sigma_{x}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\bar{x}\right)^{2}$
基于 ${\overline{\mathbf{y}}=0}$ 的假设，可对 ${\overline{\mathbf{x}}}$ 进行简化，
$\begin{aligned} \bar{x} &=\frac{1}{N} \sum_{n=1}^{N} \mathbf{w}^{\top} \mathbf{y}_{n} \\ &=\mathbf{w}^{\top}\left(\frac{1}{N} \sum_{n=1}^{N} \mathbf{y}_{n}\right)\\ &=\mathbf{w}^{\top} \overline{\mathbf{y}}=0 \end{aligned}$
故 ${\sigma_{x}^{2}}$ 可表示为：
$\sigma_{x}^{2}=\frac{1}{N} \sum_{n=1}^{N} x_{n}^{2}$
代入 ${x_{n}=\mathbf{w}^{\top} \mathbf{y}_{n}}$ 可得：
$\begin{aligned} \sigma_{x}^{2} &=\frac{1}{N} \sum_{n=1}^{N}\left(\mathbf{w}^{\top} \mathbf{y}_{n}\right)^{2} \\ &=\frac{1}{N} \sum_{n=1}^{N} \mathbf{w}^{\top} \mathbf{y}_{n} \mathbf{y}_{n}^{\top} \mathbf{w} \\ &=\mathbf{w}^{\top}\left(\frac{1}{N} \sum_{n=1}^{N} \mathbf{y}_{n} \mathbf{y}_{n}^{\top}\right) \mathbf{w} \\ \sigma_{x}^{2} &=\mathbf{w}^{\top} \mathbf{C} \mathbf{w} \end{aligned}$
其中C为样本的协方差矩阵，定义为：
$\mathbf{C}=\frac{1}{N} \sum_{n=1}^{N}\left(\mathbf{y}_{n}-\overline{\mathbf{y}}\right)\left(\mathbf{y}_{n}-\overline{\mathbf{y}}\right)^{\top}$
注意：该式意味着通过强制 ${\overline{\mathbf{y}}=0}$ ，可以对数据进行变换而不损失任何信息（方差代表了信息量）。即无论是否强制 ${\overline{\mathbf{y}}=0}$ ，C都相同。

PCA目标： 最大化方差即最大化 ${\mathbf{w}^{\top} \mathbf{C} \mathbf{w}}$

通过增加 $\mathbf{w}$ 中元素的值，来实现增加 ${\mathbf{w}^{\top} \mathbf{C} \mathbf{w}}$ 。——这就是为何要限制 ${||w_{i}||=1}$ 。
在 ${||w_{i}||=1}$ 的条件下，使得 ${\mathbf{w}^{\top} \mathbf{C} \mathbf{w}}$ 最大（拉格朗日乘数法）

$L=\mathbf{w}^{\top} \mathbf{C} \mathbf{w}-\lambda\left(\mathbf{w}^{\top} \mathbf{w}-1\right)$

$\frac{\partial \mathbf{L}}{\partial \mathbf{w}}=2 \mathbf{C} \mathbf{w}-2 \lambda \mathbf{w}=\mathbf{0}$

$\mathbf{C} \mathbf{w}=\lambda \mathbf{w}$

由上式联想到特征向量和特征值

对上述向量同时左乘 ${\mathbf{w}^{\top}}$ 可得：
${\mathbf{w}^{\top}}\mathbf{C} \mathbf{w}={\mathbf{w}^{\top}}\lambda \mathbf{w}$
由于 ${{\mathbf{w}^{\top}}\mathbf{w}=1}$ 且 ${\sigma_{x}^{2}={\mathbf{w}^{\top}} \mathbf{C} \mathbf{w}}$ ，
$\sigma_{x}^{2}=\lambda$
即特征值 ${\lambda}$ 对应于 ${\mathbf{w}}$ 定义的投影空间中数据的方差！

如果找到协方差矩阵 ${\mathbf{C}}$ 中的 ${M}$ 个特征向量/特征向量对，则最大的特征值对应的特征向量/特征值对应的就是方差最大化方向上的投影 ${\mathbf{w}_{1}}$ ，排在第二位的特征值对应 ${\mathbf{w}_{2}}$ ，排在第三位的特征值对应 ${\mathbf{w}_{3}}$

仅仅保证了方差最大，线性无关呢？

特征向量之间是否相互垂直——对于不同特征值的特征值一定是垂直的
$\mathbf{A}\mathbf{w}_{1}= \lambda_1 \mathbf{w}_1\\ \mathbf{A}\mathbf{w}_{2}= \lambda_2 \mathbf{w}_2$
不妨一个左乘 ${\mathbf{w}_2^{\top}}$ ，一个左乘 ${\mathbf{w}_1^{\top}}$ ，可得：
$\mathbf{w}_2^{\top}\mathbf{A}\mathbf{w}_{1}= \mathbf{w}_2^{\top}\lambda_1 \mathbf{w}_1\\ \mathbf{w}_1^{\top}\mathbf{A}\mathbf{w}_{2}= \mathbf{w}_1^{\top}\lambda_2 \mathbf{w}_2$
对于等式左边而言 ${\mathbf{w}_2^{\top}\mathbf{A}\mathbf{w}_{1}=\mathbf{w}_1^{\top}\mathbf{A}\mathbf{w}_{2}}$ (数值)，故等式右面也一定相等，即
$\mathbf{w}_2^{\top}\lambda_1 \mathbf{w}_1=\mathbf{w}_1^{\top}\lambda_2\mathbf{w}_2\\$
又因为 ${\mathbf{w}_2^{\top}\mathbf{w}_{1}=\mathbf{w}_1^{\top}\mathbf{w}_{2}}$ ，故可移项得，
$(\lambda_1 -\lambda_2)\mathbf{w}_1^{\top}\mathbf{w}_2=0$

由于 ${\lambda_1 \ne \lambda_2}$ 故可得 ${\mathbf{w}_1^{\top}\mathbf{w}_2}$ ，故可得不同特征值对应的特征向量一定线性无关。

总结

在数据对象集合 $\mathbf{y}_{1}, \ldots, \mathbf{y}_{N}$ 上进行投影操作（定义 $\mathbf{Y}=[\mathbf{y}_{1}, \ldots, \mathbf{y}_{N}]^{\top}$ ）包括以下步骤:

让每个元素减去 ${\overline{\mathbf{y}}}$ ，使得 ${M}$ 维数据的均值为0，其中 ${\overline{\mathbf{y}}=\frac{1}{N} \sum_{n=1}^{N} \mathbf{y}_{n}}$ .
计算样本的协方差矩阵 ${\mathbf{C}=\frac{1}{N} \sum_{n=1}^{N} \mathbf{y}_{n} \mathbf{y}_{n}^{\top}}$ 或 ${\left(\mathbf{C}=\frac{1}{N} \mathbf{Y}^{\top} \mathbf{Y}\right)}$
求解得到M个特征向量/特征值对
找到 ${D}$ 个最大的特征值对应的特征向量 $\mathbf{w}_{1}, \ldots, \mathbf{w}_{D}$
在投影空间中，为对象n建立第d维 $x_{n d}=\mathbf{w}_{d}^{\top} \mathbf{y}_{n}$ (或者 $\mathbf{X}=\mathbf{Y} \mathbf{W}$ 其中 $\mathbf{W}=\left[\mathbf{w}_{1}, \ldots, \mathbf{w}_{D}\right]$ ，即按顺序排列D个特征向量建立 ${M×D}$ 矩阵，X为 ${N×D}$ 矩阵，定义为 $\mathbf{X}=\left[\mathbf{x}_{1}, \ldots, \mathbf{x}_{N}\right]$ )