多组学关联分析实操(二)| O2PLS

       之前我们了解了基于相关性进行的一些多组学关联分析。那么在SCI论文中,还有一些比较受欢迎的多组学联合分析方法——机器学习。接下来,小易带大家学习下多组学关联分析“重器”—— O2PLS。

O2PLS简介

       O2PLS方法全称为Two-Way Orthogonal PLS,即双向正交偏最小二乘法。该方法同PCA, PLS and CCA等方法相比,考虑了不同场景下数据集中的大小,规模,分布和实验误差等因素,建模过程中考虑了不同数据集间 joint, specific和residual三部分,适用于复杂场景下的数据挖掘,属于非监督建模的一种。

       O2PLS方法的R语言版本于2018年发表于BMC Bioinformatics杂志,可用于挖掘多组学不同维度数据间的关联特征。

       该模型构建包括三个步骤:

1)交叉验证(Cross-validating):确定O2PLS成分个数;

2 )拟合(fitting):拟合O2PLS模型;

3 )归纳及可视化(Summarizing & visualizing):对结果进行总结及可视化。

O2PLS应用实践

       我们以代谢组与微生物为例,使用O2PLS进行关联分析。

1 输入文件准备

1.1 代谢组含量数据示例

1.2 微生物丰度表示例

       该方法先对微生物和代谢的数据进行UV scaling预处理,再构建群落和代谢O2PLS模型,计算每个样本的得分,得到联合得分图;然后计算每种微生物和代谢物的载荷值,得到载荷图。联合得分图指示了两个数据矩阵之间的关系,具有高载荷值的代谢物/微生物被认为是两个数据集相似性所必需的。最后可选择前两个维度载荷值长度 top(基于自己需要,可以选择top10~20) 代谢物/微生物(关联程度最大)进一步分析绘制柱状图、热图等。

2 代码实操

2.1 导入数据及数据标准化

library("OmicsPLS")
library(magrittr) # needs to be run every time you start R and want to use %>%
library(ggplot2)
tax<-read.delim("/O2PLS/genus.tsv",
                comment.char = "", header = T, sep = "\t",row.names=1)
met<-read.table("/O2PLS/neg.metabolites.tsv", comment.char = "",
                header = T, sep = "\t", quote = "", row.names=1)
tax = scale(tax, scale=F)
met = scale(met, scale=F)

2.2 模型训练

set.seed(123)
crossval_o2m(tax, met, 2:5,1:3,1:3,nr_folds = 10) #10折交叉验证
modelfit<-o2m(tax, met, 2, 3, 1)  #基于交叉验证结果确定成分数目参数
print (modelfit)

2.3 自变量物种变量筛选

xj<- loadings(modelfit, "Xjoint", 1:2) %>% abs %>% rowSums
xj[-(order(xj,decreasing=T)[1:5])] = 0
xj <- sign(xj)
print(xj)
 plot(modelfit, loading_name="Xj", i=1, j=2, label = "c", use_ggplot2 = TRUE,
              alpha = xj,
              aes(label = stringr::str_sub(colnames(tax), start = 1)),size=4,col='red')+
  theme_bw() +
  coord_fixed(1, c(-1,1),c(-1,1)) +
  geom_point(alpha = 0.5+0.5*xj, col = 'blue',size=1.5) +
  labs(title = "taxonomy joint loadings",
       x = "First Joint Loadings", y = "Second Joint Loadings") +
  theme(plot.title = element_text(face='bold')

2.4 因变量代谢物筛选

yj<- loadings(modelfit, "Yjoint", 1:2) %>% abs %>% rowSums
 yj[-(order(yj,decreasing=T)[1:10])] = 0
 yj <- sign(yj)
print (yj)
 plot(modelfit, loading_name="Yj", i=1, j=2, label = "c", use_ggplot2 = TRUE,
      alpha = yj,
      aes(label = stringr::str_sub(colnames(met), start = 1)),size=4,col='red')+
   theme_bw() +
   coord_fixed(1, c(-1,1),c(-1,1)) +
   geom_point(alpha = 0.5+0.5*yj, col = 'blue',size=1.5) +
   labs(title ="metabolite joint loadings",
        x = "First Joint Loadings", y = "Second Joint Loadings") +
   theme(plot.title = element_text(face='bold'))

       物种数据与代谢组数据分别进行载荷图分析,可基于自变量Xjoint和因变量Yjoint分别筛选外圈存在强关联的物种或代谢物,如top10、top20等。

2.5 结果展示

图 物种载荷图

图 代谢物载荷图

       筛选出外圈存在强关联的物种和代谢物,就可以进行热图分析展示了。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值