主成分分析(Principal Component Analysis,PCA)是一种无监督的多元统计分析方法,能从总体上反应各组样本之间的总体差异和组内样本之间的变异度大小,其结果一目了然,在许多生信分析中可以运用到。
基本原理是,利用数学的方法,将原来变量重新组合成新的互相无关的几个综合变量(即主成分),对所有因素按重要性排序,通常靠后的微小因素被忽略掉,从而起到简化数据的作用。实际项目中,我们可以通过PCA找出离群样品、判别相似性高的样品簇等。
PCA 是一种较为常用的降维技术,PCA 的思想是将维特征映射到维上,这维是全新的正交特征。这维特征称为主元,是重新构造出来的维特征。
在 PCA 中,数据从原来的坐标系转换到新的坐标系下,新的坐标系的选择与数据本身是密切相关的。其中,第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选取的是与第一个坐标轴正交且具有最大方差的方向,依次类推,我们可以取到这样的几个坐标轴。
PCA的计算过程