主成分分析(PCA):分析一个随机向量的中的主成分(主成分一般不是随机向量中的某一个分量,而是不同分量的线性组合,根据信息论的观点,
信息的多少与方差有关, 所以 主成分是方差最大的几个成分)。
主成分分析的方法是求随机向量的协方差矩阵(用样本协方差矩阵代替)(对于差异较大的数据,可采用相关矩阵代替协方差矩阵),样本协方差矩阵是一个非负定矩阵,计算矩阵的特征值和对应的单位特征向量。则,特征值最大的几个特征向量与各分量的乘积就是主分量。(一般主分量要取到能代表所有信息的80%以上)
进行主成分分析前要进行整体相关性检验(如KMO检验)
kmo检验:检验各变量之间的相关性,检验结果为【0~1】之间的小数,结果越接近1相关性越大。
巴特莱特检验:原假设是相关矩阵为单位阵(即各变量之间不相关),若结果否定原假设,则表示变量之间相关。
计算主成分分析的协方差矩阵或相关矩阵时,若向量维数过大可采用奇异值分解。
注:主成分分析是基于方差最大排序的,所以PCA只是找出一种组合使方差最大,得到的结果不一定能反应数据的主成分。