一、主成分分析
主成分分析流程
1、原始数据标准化。
2、计算标准化变量间的相关系数矩阵。
3、计算相关系数矩阵的特征值和特征向量。
4、计算主成分变量值。
5、统计结果分析,提取所需的主成分。
相关系数公式
主成分计算公式
其中Y是主成分变量矩阵,X是原始数据标准化后的矩阵,U是相关系数矩阵的特征向量。
特征值和特征向量的关系
主成分变量对应的特征向量的每个元素,与对应的特征值的平方根的乘积,等于该主成分变量,与该元素列标签对应的原始变量之间的相关系数。这是特征值与特征向量隐藏的
秘密,可以用矩阵代数严格推导出来。看不懂请看下图。图中的eigVec1至eigVec4是4个特征向量,对应的特征值分别为eigVal1至eigVal4。在每个列中进行操作,用特征向量
每个元素分别乘以对应特征值的平方根,得到该主成分变量与所有原始变量的相关系数。
一些概念:
原始变量之间的相关系数矩阵:可以看出原始变量之间的相关性。
原始变量和主成分变量之间的相关系数矩阵:可以看出主成分变量受原始变量影响的程度。
主成分变量之间的相关系数矩阵:主成