PCA 算法也叫主成分分析(principal components analysis),主要是用于数据降维的。其核心思想就是将 n 维特征映射到 k 维上(k < n),这 k 维是全新的正交特征。我们将这 k 维成为主元,是重新构造出来的 k 维特征,而不是简单地从 n 维特征中取出其余 n-k 维特征。
由于数据的最大方差给出了数据的最重要的信息。则第一主成分是从方差最大的方向提取出来的,第二个主成分则来自于方差次大的方向,且与第一主成分方向正交。
pca降维的步骤:1、特征中心化,即所有的样例都减去对应的均值
2、