GO和KEGG富集分析的注释信息(注释包)
-
GO常用的注释信息包
GO的注释信息主要来自Bioconductor,提供了19个物种的org类型的GO注释信息。其中包括有常见的物种,如:牛、猪、人类、小鼠等。
-
KEGG注释信息包
KEGG APIhttps://link.zhihu.com/?target=https%3A//www.kegg.jp/kegg/rest/keggapi.html
没有物种信息
对于没有物种信息的项目进行GO富集时,我们则需要通过读取外部的GO注释文件进行分析,可以使用blast2go软件进行基因的注释。
同样地,对于pathway数据库中没有的物种,也支持读取基因的pathway注释文件,然后进行分析。
GO与KEGG分析
-
clusterProfiler安装
#安装clusterProfiler
If(!requireNamespace(“BiocManager”,quietly = TRUE))
Install.packages(“BiocManager”)
BiocManager::install(“clusterProfiler”)
-
以人类注释数据库为例进行安装
其它物种数据库可自行查找
#人类注释数据库
BiocManager::install(“org.Hs.eg.db”)
library(org.Hs.eg.db)
-
进行GO富集和KEGG富集分析
library(clusterProfiler)#进行GO富集和KEGG富集
library(dplyr) #进行数据转换
library(ggplot2)#绘图
-
导入数据与geneID转换
#导入数据,数据为一列基因名的文件
f <- read.table("D:\\Rdata\\Gene.txt",header=T,sep='\t')
#取所需列进行后续分析
x <-f[,1]
#利用bitr函数进行id转换,使用bioconductor的db系列包进行
hg<-bitr(x,fromType="SYMBOL",toType=c("ENTREZID","ENSEMBL","SYMBOL"),OrgDb="org.Hs.eg.db")
#查看hg的信息,三列信息包括ENTREZID、ENSEMBL、SYMBOL
head(hg)
-
GO enrichments
#进行GO富集,确定P值与Q值得卡值并使用BH方法对值进行调整。
go <- enrichGO(hg$ENTREZID,OrgDb = org.Hs.eg.db, ont='ALL',pAdjustMethod = 'BH',pvalueCutoff = 0.05, qvalueCutoff = 0.2,keyType = 'ENTREZID')
#查看富集结果
dim(go)
#导出GO富集的结果
write.csv(go,file="go.csv")
barplot(go,showCategory=20,drop=T)#柱状图
dotplot(go,showCategory=20)#气泡图
#将ont=ALL,换成CC、BP、MF分别进行富集
goCC <- enrichGO(hg$ENTREZID,OrgDb = org.Hs.eg.db, ont='CC',pAdjustMethod = 'BH',pvalueCutoff = 0.05, qvalueCutoff = 0.2,keyType = 'ENTREZID')
goBP <- enrichGO(hg$ENTREZID,OrgDb = org.Hs.eg.db, ont='BP',pAdjustMethod = 'BH',pvalueCutoff = 0.05, qvalueCutoff = 0.2,keyType = 'ENTREZID')
goMF <- enrichGO(hg$ENTREZID,OrgDb = org.Hs.eg.db, ont='MF',pAdjustMethod = 'BH',pvalueCutoff = 0.05, qvalueCutoff = 0.2,keyType = 'ENTREZID')
-
KEGG enrichments
#进行KEGG富集
kegg <- enrichKEGG(hg$ENTREZID, organism = 'hsa', keyType = 'kegg', pvalueCutoff = 0.05, pAdjustMethod = 'BH', minGSSize = 3, maxGSSize = 500, qvalueCutoff = 0.2, use_internal_data = FALSE)
#导出富集结果
write.csv(kegg,file = "kegg.csv")
#查看富集结果
dim(kegg)
#可视化,同上
dotplot(kegg, showCategory=20) #气泡图
#pathway映射
browseKEGG(kegg, "hsa03728") #在pathway通路图上标记富集到的基因,会链接到KEGG官网