大部分的生物学高通量数据处理后都是得到基因集,不管是上调下调表达基因集,还是共表达的模块基因集,都是需要注释到生物学功能数据库来看基因集的意义,最常见的是 GO/KEGG数据库啦,还有很多其它在 MsigDB的,比如 reactome和biocarta数据库等等。
这样分析起来就很麻烦,尤其是GO数据库,还有BP,CC,MF的区别,这个时候推荐使用Y叔的神器:
library(ggplot2)
library(stringr)
library(clusterProfiler)
# 我这里演示的是brown_down_gene,是WGCNA的一个模块,基因集
# 因为表达矩阵是symbol,所以需要转为ENTREZID,才能走clusterProfiler的函数。
gene.df <- bitr(brown_down_gene$symbol, fromType="SYMBOL",
toType="ENTREZID",
OrgDb = "org.Hs.eg.db")
go <- enrichGO(gene = gene.df$ENTREZID, OrgDb = "org.Hs.eg.db", ont="all")
barplot(go, split="ONTOLOGY")+ facet_grid(ONTOLOGY~., scale="free")
会得到如下所示的图,当然,理解起来需要耗费