主成分分析
PCA(Principal Component Analysis),将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法
主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小分为第一主成分,第二主成分等等
主成分与原始变量之间的关系:
- 主成分保留了原始变量绝大多数信息
- 主成分的个数大大少于原始变量的数目
- 各个主成分之间互不相关
- 每个主成分都是原始变量的线性组合
主成分分析法简介
- 假设讨论的实际问题中,有p额指标,把这p个指标看做p个随机变量,记为X1,X2···Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2···Fk(k≤p),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立
- 这种由讨论多个指标降为少数几个综合指标的过程在数学数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi