主成分分析碎石图_主成分分析(PCA)原理精讲

主成分分析(PCA)用于处理多维度数据,通过降维来展示变量分布。PCA步骤包括寻找质心、数据中心化、找到最佳拟合直线(PC1)和PC2,最后绘制PCA图。PCA图的主成分占比可通过碎石图显示,例如在2D数据中,PC1和PC2可解释94%的数据变异。
摘要由CSDN通过智能技术生成
引言:当数据维度较高时,我们很难通过普通的方法做图,更不能分析样本间的关系。故我们接下来学习降维度、可视化的主成分分析(Principal Component Analysis,PCA)。

1.何时使用PCA

假设我们有如下的数据:有6小鼠的4个基因的表达数据,我们想要探索基于这4个基因的表达数据是否能区分小鼠间的差异。

gene Mouse 1 Mouse 2 Mouse 3 Mouse 4 Mouse 5 Mouse 6
Gene 1 10 11 8 3 2 1
Gene 2 6 4 5 3 2.8 1
Gene 3 12 9 10 2.5 1.3 2
Gene 4 5 7 6 2 4 7
  • 如果只考虑一个基因(gene 1),将其绘制到一维坐标轴上。即使这只是一个简单的一维数据,它也可以展示出mouse4/5/6之间更为相似,mouse1/2/3之间更为相似。如下:f53e483963f6bce1e31f40f4edf62274.png

  • 如果将2个基因(gene 1和gene 2)展示在2D-plot中。可以发现,mouse4/5/6之间更为相似,表现为gene 1和gene2表达较低;mouse1/2/3之间更为相似,表现为gene 1和gene 2表达较高。如下:8e8af526be0d4624d617305402fa523c.png

  • 如果将3个gene(gene 1/gene 2/gene 3)展示在3D-plot中,gene 1为水平轴,gene 2 为纵轴,gene 3为垂直于gene 1和gene 2的轴(类似于z 轴,gene 3的表达量越低,离原点越近,体积越大,相反则体积越小)。可以发现靠近原点的3个mouse的基因表达量更为相似,表现为3个基因低表达;而远离原点的3个mouse的表达量更为相似。如下:c2b1753becab52534ef744d9c2e119c5.png

  • 如果要把4个gene的数据全部绘制在图形中,我们将不能再用以上的方法直观展示小鼠中4个基因的表达量。但却可以使用PCA 2-D图来展示变量的分布情况,如下:横坐标对应主成分1(PC1)和纵坐标对应主成分2(PC2)。e54e4a43d4922e9c4a10fdc1174b944c.png

在接下来的几个章节中:

  • 讨论PCA如何处理4个及以上变量的数据并将其展示在2-D PCA图中。
  • 讨论PCA是如何告诉我们哪一变量对数据聚类的影响最大。例如PCA可能告诉我们gene 3 对沿着x-轴(PC 1)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值