by mango怎么group_PCA分析的结果不符合预期该怎么办?

PCA分析在样本区分中的作用被探讨,即使两组无法完全分开也有其意义。文章介绍了PCA的基本概念,强调了PCA分析结果并不总是要求完全区分各组,而是能揭示内在的样本差异。通过实例解释了PCA在疾病与正常样本分析中,以及动脉静脉血液样本中的应用。同时,对比了prcomp()和PCAtools包进行PCA分析的方法,展示它们如何呈现相似的可视化结果,鼓励在遇到看似无意义的PCA结果时,尝试不同方法以发现潜在价值。
摘要由CSDN通过智能技术生成

什么是PCA?

我们简单介绍一下什么是PCA,比如我们常见的芯片数据,每一个样本都可以测出上万个基因的表达量,一个基因就是一个维度,上万个基因有上万个维度,难道只有上万个维度才能区分出不同的样本吗?答案当然是NO,所以我们就要找到那些对于区分不同样本的高贡献度的维度,那我要怎么找呢?答案就是降维,降维最常用的也就是PCA分析了。

PCA如果两组无法完全分开就没意义了吗?

当然不是,假设我们有正常组和疾病组两组配对样本,PCA分析最理想的结果当然是疾病组和正常组区分度高,同一组的样本聚合在一起,不同组的样本距离较远并且能完全分开。

万一不理想情况下,疾病组和正常组并不能完全分开,那怎么办呢?

这时候可以把映射改一下,正常映射是疾病组一个颜色,正常组一个颜色,然后看两种颜色是否能够分开,现在我们改成一对配对样本是一种颜色,这样我们就能看到每对配对样本之间的距离,像我的结果就是疾病组和正常组无法完全区分,那是每对配对样本之间距离接近,同时不同对样本之间能够互相区分,这说明我的样本之间差异较大。

这样的情况还可以适应于什么情形呢?

比如有文章收集了肿瘤动静脉的血液样本,并且使用液相色谱仪提取上百种代谢物,接着进行PCA分析,结果发现动脉组的样本和静脉组的样本不能区分开,但是同一患者间动脉样本和静脉样本聚集在一起,且不同患者的样本明显区分,这就表明患者间的代谢组差异大于同一患者的动静脉样本差异,后续讨论沿着这个方向,就能把原本已经“绝望”的PCA结果又“起死回生”了。

不同的PCA分析方法,相同的分析结果

在前面的推文中,已经有老师给大家展示使用factoextra包进行PCA分析并可视化,这里我们用两种新的方法:prcomp()和PCAtools包

但是在进行PCA分析之前,我们先来看看怎么绘制一个PCA散点图。在打赏营我们说过,任何复杂的图形的可视化复现都可以分为两个字:“拆”和“叠”,一张PCA结果图片无非就是把点映射上去,然后进行相应修饰,那么就还是一个散点图,所以我们先来看看一个简单的散点图可以怎么画,这里先使用R自带的iris函数:

 1 library(ggforce)
 2 library(ggsci)
 3 head(iris)
 4 ##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
 5 ## 1          5.1         3.5          1.4         0.2  setosa
 6 ## 2          4.9         3.0          1.4         0.2  setosa
 7 ## 3          4.7         3.2          1.3         0.2  setosa
 8 ## 4          4.6         3.1          1.5         0.2  setosa
 9 ## 5          5.0         3.6          1.4         0.2  setosa
10 ## 6      
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值