PCA原理简介
为什么要用PCA?
维基百科介绍:主成分分析(英语:Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。
说了和没说一样……我们还是通过一个简单的案例引出PCA的作用吧。
如果我们在6个小鼠样本中检测一个基因Gene1的表达
我们很容易看出来,基因Gene1在小鼠1-3中表达比较相似,而在小鼠4-6中表达比较相似
如果同时检测两个基因
我们可以将不同小鼠样本标记在二维坐标轴中,并且看出小鼠1-3的整体表达比较相似,而小鼠4-6的整体表达比较相似
将基因数目扩增到3个时候,我们依然可以通过三维坐标轴标记出不同样本的分布
但是如果将基因数目增加到4个或4个以上时候,很难继续增加坐标轴的维度来绘图(思维空间已经超出一般人的认知了)。
所以我们可以通过PCA的降维方法来处理这种4维或者多维数据,将其绘制为二维图像来比较不同样本之间的关系。
PCA原理
PCA是如果进行降维的呢?
PC1计算原理
首先我们只检测6个不同小鼠的2个基因,那么我们可以分别计算出所有小鼠Gene1和Gene2的平均值(