R语言并行计算spearman相关系数

道阻且长1994

已于 2022-04-07 15:58:33 修改

阅读量1w

点赞数 25

分类专栏：微生物共现网络构建及分析文章标签： r语言

于 2021-09-19 20:51:50 首次发布

本文链接：https://blog.csdn.net/weixin_43367441/article/details/120384404

版权

微生物共现网络构建及分析专栏收录该内容

9 篇文章

订阅专栏

本文介绍了一种使用R语言进行并行计算Spearman相关系数的方法，以加速共现网络构建。通过自定义函数network_construct，利用多核CPU提高计算效率，并与psych包中的corr.test函数进行了对比。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

R语言并行计算spearman相关系数，加快共现网络（co-occurrence network）构建速度

利用spearman相关性分析是构建共现网络的重要方法，但由于OTU table往往有成千上万行，用R自带的corr.test()函数计算较为费时，严重制约我们的分析速度。对spearman相关性分析进行并行化运行可大大节省计算时间，为此我们手写了spearman相关性分析函数来实现并行化运行。为方便讲解，本文以我们常见的OTU table 数据为例，对OTU进行两两spearman相关性分析，获得相关系数r和显著性p值。我们将自己手写的函数network_construct()与psych包中的corr.test()函数两者运行时间和计算的结果进行了比较，我们自己的函数network_construct()计算时间远远少于corr.test()函数且结果相同，具体的R代码见下文。

我们经常使用corr.test()函数计算OTU之间的相关性，但该函数在面对较多的OTU时速度较慢。`

library(psych)
system.time(corr.test(otu[,1:500],use="pairwise",method="spearman",adjust="fdr",alpha=.05))

运行时间如下：（elapsed栏为程序运行的时间）
图1，原函数运行时间
为了加快计算速度，我们根据相关系数矩阵的计算特点，进行了并行化重写，代码如下：

#otu_table行名为样点名，列名为OTU名
#threads为使用的CPU核数
#本函数默认使用‘fdr’进行P值矫正，可参考corr.test()函数的R帮助文档
network_construct <- function(otu_table,threads){
  library(foreach)
  library(doParallel)
  library(abind)
  otu_table2 <- apply(otu_table,2,rank)
  r <- function(rx,ry){
    n <- length(rx)
    lxy <- sum((rx-mean(rx))*(ry-mean(ry)))
    lxx <- sum((rx-mean(rx))^2)
    lyy <- sum((ry-mean(ry))^2)
    r <- lxy/sqrt(lxx*lyy)
    t <- (r * sqrt(n - 2))/sqrt(1 - r^2)
    p <- -2 * expm1(pt(abs(t), (n - 2), log.p = TRUE))
    return(c(r,p))
  }
  arraybind <- function(...){
    abind(...,along = 3,force.array=TRUE)
  }
  nc <- ncol(otu_table)
  registerDoParallel(cores = threads)
  corr <- foreach (i = 1:nc,.combine = "arraybind") %dopar%{
    corr1 <- matrix(rep(0,2*nc),nrow = 2,ncol=nc)
    for(j in 1:nc) {
      if(j > i) corr1[,j] <- r(otu_table2[,i],otu_table2[,j])
    }
    corr <- corr1
  }
  rr <- corr[1,,]
  rr <- rr+t(rr)
  diag(rr) <- 1
  pp <- corr[2,,]
  lp <- lower.tri(pp)
  pa <- pp[lp]
  pa <- p.adjust(pa, "fdr")
  pp[lower.tri(pp, diag = FALSE)] <- pa
  pp <- pp+t(pp)
  rownames(pp) <- colnames(otu_table)
  colnames(pp) <- colnames(otu_table)
  rownames(rr) <- colnames(otu_table)
  colnames(rr) <- colnames(otu_table)
  return(list(r = rr,p = pp))
}

使用我们自己构造的函数后，可利用10核进行计算，运行时间如下：
图2，自建函数十核运行时间
我们可以看到使用corr.test()函数进行计算需要313秒，而使用R代码进行并行计算仅需0.99秒。我们再比较一下不同线程情况下所需的时间。单核运行代码如下:

system.time(network_construct(otu[,1:500],1))

图3，自建函数单核运行时间
即使使用单核进行计算速度，也要比corr.test()函数快上很多，毕竟该函数里面有很多判断语句，计算更加费时。当我们加大数据量时，单核和多核的区别就更加明显。下图是单核与10核运行的比较：
自建函数单核与十核运行时间的比较
我们可以看到计算量越大，多核的性能就越优越。当我们有成千上万个OTU时可以节省很多时间。那么我们运行的结果与corr.test()函数的结果是否一致呢？

res1 <- corr.test(otu[,1:50],use="pairwise",method="spearman",adjust="fdr",alpha=.05)
res2 <- network_construct(otu[,1:50],10)
res1$r[1:5,1:5]
res2$r[1:5,1:5]

将我们构建的函数network_construct()与psych包中的corr.test()的结果进行比较，结果如下：
图5，自建函数与原函数结果比较
我们计算的结果与原函数的结果完全相同，可以放心使用哈，现在就可以把我们的函数复制过去用于自己的项目啦。
除了共现网络分析，群落构建分析中的零模型构建也需要进行大量的循环，我们也可以将并行计算用于群落构建分析，例如beta-NTI的计算，敬请关注我们下一篇文章。

温馨提示：

我们自己构造的函数network_construct()依赖“foreach”,“doParallel”,“abind”程序包，请预先安装上述三个包。corr.test()依赖于“psych”程序包。
运行前可通过如下代码查看计算机CPU核数，核数不是越多越好，要根据内存来选，不然内存不够会让R程序卡死。可通过任务管理器实时监测。
测试文件可参考付费资源，https://download.csdn.net/download/weixin_43367441/22467741
更多R语言分析微生物生态学的资源可参考如下链接：
https://mianbaoduo.com/o/bread/mbd-YpmTlZpr

library(parallel)
detectCores()
#24
#以我的电脑为例是二十四核