KEGG pathway 注释整理
获得KEGG注释
通过eggnog-mapper和interproscan两个软件(或数据库),可以获得KEGG ORTHOLOGY(KO)的注释,即基因或者转录本对应的K number, 具体参见两个软件的wiki.
获得KO与pathway的关系
进入KEGG官网,然后点击KEGG BRITE进入该数据库,在这个数据库中可以下载KEGG数据库中手工创建的层次结构文件(BRITE hierarchy files)。在这里,需要下载包含pathway和KO对应关系的文件,点击KEGG Orthology (KO)下载,这里下载json版本。
下面解析该文件,生成表格文件便于使用。
import json
import re
with open("ko00001.json") as f:
ko_map_data = json.load(f)
with open("KEGG_pathway_ko.txt", "w") as oh:
line = "level1_pathway_id\tlevel1_pathway_name\tlevel2_pathway_id\tlevel2_pathway_name"
line += "\tlevel3_pathway_id\tlevel3_pathway_name\tko\tko_name\tko_des\tec\n"
oh.write(line)
for level1 in ko_map_data["children"]:
m = re.match(r"(\S+)\s+([\S\w\s]+