非模式生物富集分析
文章目录
非模式菌株搜索方法
#BiocManager::install("AnnotationHub")
library("AnnotationHub")
require("AnnotationHub")
hub <- AnnotationHub() #这步需要点时间
query(hub,"PAO1")
查询包含PAO1的物种信息,一共查询到2条信息。记住ID号:
创建OrgDb包
但我想自己建包,所以在数据库下的注释信息(我这是假单胞菌的基因组网站):
https://v2.pseudomonas.com/goterms/list?accession=&goterm=&ecoCode=&strain_id=107&term=Pseudomonas+aeruginosa+PAO1+%28Reference%29&offset=0
setwd("此处填文件所在路径")
egg<-read.csv("gene_ontology_csv.csv")
如果有空行运行:
NAegg[egg=="-"] <- NA
我的注释文件长这个样子(至少应该有GID, GENENAME, GO):
创建gene_info和gene2go文件:
gene_info <- egg %>%dplyr::select(GID = Locus.Tag, GENENAME = Gene.Name) %>% na.omit() #把GID和GENENAME相应提取出来。
gene_info <- unique(gene_info) #我这里有行重复,你的没有的话可以忽略
gene2go <- egg %>%dplyr::select(GID = Locus.Tag, GO = Accession, EVIDENCE = Evidence.Ontology.ECO.Code) %>% na.omit() #同理把GID,GO和Evidence提取出来, Evidence随意什么都行。
gene2go <- unique(gene2g