PCA(Principal Component Analysis),即主成分分析,一种常用于数据降维分析的方法。要理解PCA的原理,首先需要理解矩阵变换的意义。
矩阵变换,有两种意义:1,在当前坐标系下的向量,经过矩阵M变换后,结果为被变换的向量在当前坐标系下的新向量。
2,保持向量不变,矩阵M对当前坐标系进行变换,结果为当前向量在新坐标系下的向量表示。该新坐标系即矩阵M,变换后的向量是在新坐标系下各坐标轴上的投影。
以二维空间样本为例,有如下一批样本:
我们需要将该二维样本数据转换到一维空间中,只分析一维空间样本数据。如果我们直接在当前坐标系下分析该样本,把所有样本投影到X或者Y轴的任意一个一维空间上,样本数据都会有较大的损失。如果我们能够找到一个变换矩阵M,使得当前坐标系旋转到下图X' Y'位置:
此时,所有样本数据在X'坐标轴上的投影达到最大,分散的最开。因此直观上X' Y'坐标系就是我们需要寻找的最优变换M。
如何得到这个变换矩阵M&#