一 简介
主成分分析PCA(Principal Components Analysis):
一种数据分析技术,常对数据进行线性降维,减少噪声与冗余,揭示隐藏在复杂数据背后的简单结构,该算法具有简单,无参数限制的优点;
算法思想:
将初始数据n维的特征映射到k维上(k < n),其中这k维是全新的正交特征。这k维称之为主元,是重新构造出来的特征,而不是仅仅简单地从n维数据中挑选出k维的特征;
算法步骤:
1)计算每维特征样本值的平均值,然后对于所有样本均减去其对应特征平均值;
2)求特征协方差矩阵;
3)求协方差的特征值与对应特征向量;
4)将特征值按照从大到小排列,选出前k大个特征值对应的特征向量,作为列向量组成特征向量矩阵;
5)将样本点投影到选取的特征向量上;
举例:
样本集:含有m个样本(1)
每个样本含有n个特征: (2)
下面的为10个样本,x , y二维特征示例:
由m个样本组成原始数据矩阵,其中矩阵M(m*n)中,每行代表一个样本,每列代表一种特征向量: