go 多分隔符拆分_【R】GO富集分析结果中基因注释-CSDN博客

本文链接：https://blog.csdn.net/weixin_35330796/article/details/112099737

本文介绍了如何使用R语言和Excel处理GO富集分析结果，将基因名称与其功能注释对应。通过R进行数据处理，使用`split()`函数拆分多分隔符列，并结合`merge()`合并数据。而在Excel中，利用“数据”菜单的“分列”功能，以特定分隔符拆分后，通过VLOOKUP函数与基因注释总表匹配。总结来说，小规模数据适合用Excel，大规模数据推荐使用R。

摘要由CSDN通过智能技术生成

【分析目标】像下面这种GO分析，在Excel表格里面给出了一堆基因名称，我怎么快速把所有的基因跟它们的功能注释一一对应起来呢？

最终想要的结果类似下图：

最近收到朋友的求助，想要解决上面的问题，其实用R语言和excel都可以实现。

用R 实现

library(openxlsx)library(tidyverse)#读取GO注释的基因列表gl  read.xlsx("基因lists.xlsx")

朋友给我列表时只给出了要拆分的列，所以我就暂时用行号加了一列GO。

#给出行号gl$GO  c(1:nrow(gl))

#按分隔符“|”将genelist拆分成列表gl.sp  strsplit(gl$Hits,"[|]")

#将genlist中的GO分别和拆分后的列表的每个元素合并gl.spc  mapply(cbind, gl$GO, gl.sp)

#最后将列表gl.spc转换为数据框，按行合并，即可得到目标排列的数据gl.d  do.call(rbind.data.frame, gl.spc)colnames(gl.d)  c("GO","Hits")#把Hits复制一份给Gene.IDgl.d$Gene.ID  gl.d$Hits

#读取Araport注释anno  read.xlsx("Araport11_annotation.xlsx")

接下来就是要合并两个数据gl.d和anno。

#inner_join: 合并数据，仅保留匹配的记录# a是按ID来合并数据， b是按symbol来合并数据a  inner_join(gl.d, anno, by=c("Gene.ID"="ID"))b  inner_join(gl.d, anno, by=c("Hits"="symbol"))colnames(a)[colnames(a)=="Gene.ID"]  "ID"a  a[,c("GO","Hits","ID","locus_type","symbol","full_name",          "Note","curator_summary","Alias","computational_description")]colnames(b)[colnames(b)=="Gene.ID"]  "symbol"b  b[,c("GO","Hits","ID","locus_type","symbol","full_name",                 "Note","curator_summary","Alias","computational_description")]#合并两部分gl.r  rbind(a,b)#按之前的行号排序gl.r  arrange(gl.r, as.numeric(GO))write.xlsx(gl.r, "基因lists_anno.xlsx")