PCA(Principal Components Analysis)主成分分析,这是一种数据降维算法,用于数据预处理。一般我们获取的原始数据维度都很高,我们可以运用PCA算法降低特征维度。这样不仅可以去除无用的噪声,还能减少很大的计算量。
PCA的算法步骤:
设有m条n维数据。
- 将原始数据按列组成n行m列矩阵X;
- 将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值;
- 求出协方差矩阵C=1mXXTC=1mXXT;
- 求出协方差矩阵的特征值及对应的特征向量;
- 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;
- Y=PXY=PX即为降维到k维后的数据。