PCA(Principal Component Analysis) 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。
PCA 的数学推导可以从最大可分型和最大重构性两方面进行,前者的优化条件为划分后方差最大,后者的优化条件为点到划分平面距离最小。由于基于最大重构性的 PCA 其与 LDA(线性判别法)的数学推导有异曲同工之处,所以我只从最大可分性进行证明,而最大重构性将留在介绍 LDA 算法时进行介绍。相应的,也会在介绍 LDA 算法时介绍 PCA 与 LDA 的区别与联系。
如何提取数据的主要特征分量的?接下来开启学习之旅
1. 向量表示与基变换
我们先来介绍些线性代数的基本知识。
1.1 内积
两个向量的 A 和 B 内积我们知道形式是这样的:
内积运算将两个向量映射为实数,其计算方式非常容易理解,但我们无法看出其物理含义。接下来我们从几何角度来分析,为了简单起见,我们假设 A 和 B 均为二维向量,则:
其几何表示见下图:
我们看出 A 与 B 的内积等于 A 到 B 的投影长度乘以 B 的模。如果假设 B 的模为 1,即让,那么就变成了:
。
也就是说,A 与 B 的内积值等于 A 向 B 所在直线投影的矢量长度。
这就是内积的一种几何解释,也是我们得到的第一个重要结论。在后面的推导中,将反复使用这个结论。
1.2 基
在我们常说的坐标系种,向量 (3,2) 其实隐式引入了一个定义:以 x 轴和 y 轴上正方向长度为 1 的向量为标准。向量 (3,2) 实际是说在 x 轴投影为 3 而 y 轴的投影为 2。注意投影是一个矢量,所以可以为负。
所以,对于向量 (3, 2) 来说&#