什么是GO?什么是KEGG?
GO(Gene Ontology,基因本体论)是基因本体论联合会建立的一个数据库,旨在建立一个适用于各种物种的、对基因和蛋白功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。GO注释分为三大类,分别是:分子生物学功能(Molecular Function,MF)、生物学过程(Biological Process,BP)和细胞学组分(Cellular Components,CC),通过这三个功能大类,对一个基因的功能进行多方面的限定和描述。
而KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书),是一个整合了基因组、化学和系统功能信息的综合数据库。KEGG下属4个大类和17和子数据库,而其中有一个数据库叫做KEGG Pathway,专门存储不同物种中基因通路的信息,也是用的最多的一个。
2数据准备
1)GO富集结果文件GO_Enrichment.txt,示例:
2)KEGG富集结果文件KEGG_Enrichment.txt,示例:
代码实现(R语言)
载入需要的R包:
suppressMessages(library(ggplot2))
suppressMessages(library(dplyr))
suppressMessages(library(stringr))
suppressMessages(library(clusterProfiler))
载入数据文件并处理:
GO_Name = "GO_Enrichment.txt"
KEGG_Name = "KEGG_Enrichment.txt"
GOFile = read.csv(GO_Name, header = T, sep="\t")
KEGGFile = read.csv(KEGG_Name, header = T, sep="\t")
GOFile.P
GOFile.C
GOFile.F
GOFile.C.head = head(arrange(as.data.frame(GOFile.C), pvalue), 10)#筛选前十
GOFile.P.head = h