1 主成分分析简介
主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。主成分分析是由卡尔·皮尔逊(Karl Pearson)于1901年发明的。通过维度约减的方式将高维度空间的数据映射到低维度空间的数据。
2 主成分分析基本原理
2.1 线性变换
主成分分析的核心思想是通过将原数据的维度进行线性变换得到一组新的数据维度(主成分)。这组新的数据维度称为主成分。主成分之间线性无关,主成分实际构建了数据新的特征维度,在该特征维度下,数据的维度可能进行了压降,数据的运算会变得更加容易。
有n个p维的样本,构成样本矩阵
假设有一组向量(数据)可以通过线性表达
当选择合适的系数,会构建满足条件的新的特征维度,记
。
记上述变换为,
其中。
在构建主成分时,要求之间线性无关,且在
时,
在主成分
上投影的方差大于在主成分
上的投影的方差。如此,数据
在主成分上进行了“分解”,且依据数据信息量的程度将主成分进行了区分和排序。当
时,实现了对数据的降维操作。
这里的变换矩阵