一、KEGG概述
KEGG( Kyoto Encyclopedia of Genes and Genomes):京都基因和基因组百科全书
KEGG项目于1995年5月在日本教育、科学、体育和文化部的人类基因组计划下启动。计算资源由京都大学化学研究所超级计算机实验室提供。KEGG和相关软件工具中的所有数据都为日本GenomeNet服务的一部分提供。
KEGG由三个数据库组成:
(1)用于表示相互作用分子网络的pathway;
(2)用于收集所有完全测序的基因组和一些部分基因组的基因目录的GENES;
(3)以及用于化学品收集的LIGAND(配体)。
==================================================
二、产生背景
如何借助计算机全面的展示细胞和生物所包含的生物学信息是后基因组时代的重大挑战之一。科学家期望能够根据基因组中的信息,用计算机计算或者预测出的比较复杂的细胞中的通路或者生物的复杂行为,出于这个目的,日本京都大学生物信息学中心的Kanehisa实验室于1995年建立了生物信息学数据库KEGG。现在是基因组测序和其他高通量实验技术产生的大规模分子数据集的整合和解释的重要参考知识库。
==================================================
三、内涵
KEGG是一个数据库资源,用于从基因组和分子水平信息中了解生物系统的高级功能和效用,例如细胞,生物体和生态系统。它是生物系统的计算机表示,由基因和蛋白质(基因组信息)和化学物质(化学信息)的分子构建块组成,它们与相互作用,反应和关系网络的分子接线图的知识相结合(系统信息)。它还包含疾病和药物信息(健康信息)作为生物系统的扰动。
特点:人工创建了一个知识库,基于使用一种计算的形式捕捉和组织实验室得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟。
KEGG具有强大的图形功能,来介绍众多的代谢途径以及各途径之间的关系。(2019年8月统计)
注:
(1)与药物标签整合的健康信息类别称为KEGG MEDICUS★
(2)Genes数据库里:储存基因组信息,包括完整和部分测序的基因组序列;[从ncbi的GeneBank中搜集而来]
(3)Pathway数据库:储存更高级的功能信息
(4)LIGAND数据库:包含关于化学物质、酶分子、酶反应等信息——化学信息类别统称为LIGAND
(5)LinkDB:链接世界上其他一些大型生物信息学数据库
==================================================
四、KEGG PATHWAY Database
数据库首页:https://www.genome.jp/kegg/pathway.html
KEGG数据库目前统计的数据:https://www.kegg.jp/kegg/docs/statistics.html,能看到有542条pathway。
KEGG PATHWAY是一组根据相关知识手动绘制的通路图,代表我们对分子相互作用、反应和关系网络的了解。这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系。基因组信息主要是从NCBI等数据库中得到的,除了有完整的基因序列外,还有没完成的草图。
——————————————————————————————————
【注:以下知识参考链接——https://www.jianshu.com/p/d7656c2e2cbe】
这里先补充KEGG KO数据库
数据库首页链接: https://www.genome.jp/kegg/ko.html
KEGG Orthology 简称KO,对于每个功能已知的基因,会把和其同源的基因所有基因都归为一类,就是每一个KO, 并赋予一个K number, 用该基因的功能作为这个KO的功能;基于同源基因具有相似功能的假设,把每个基因的功能进行了扩充,对于某个物种中功能研究的很清楚的基因,在不同的物种间搜寻该基因的同源基因,将这些同源基因定义为一个orthology,用该基因的功能作为该orthology 的功能,这样就将对于不同物种基因功能的研究都利用起来,提供了一个全面的研究基因功能的数据库。
对于一个具体的KO来说,在这个KO下是一系列基因,这些基因可以来源于不同的物种,但是具有相同的功能。
举一个例子,对于 K00161 这个K number 来说,打开首页链接 http://www.genome.jp/kegg/ko.html , 在查询的文本框中输入K number, 如下图所示:
点击 Orthology table 按钮,跳转到下面的链接:https://www.kegg.jp/kegg-bin/view_ortholog_table?orthology=K00161,在该链接中,可以看到这个KO下对应的所有同源基因。
ko编号就是一个pathway,例如ko04722,这个通路不分物种,相当于所有物种这一通路的并集。
K编号表示一个基因,例如K02582(https://www.kegg.jp/kegg-bin/view_ortholog_table?orthology=K02582),是ko通路中的基本单元,某一K编号代表的不是某一具体物种的基因,而是所有物种的某一同源基因的统称。
pathway,module 等数据库都是建立在KO数据库的基础上的,KO可以说是KEGG中处于核心地位的一个数据库,所以理解KO数据库就特别的重要。
——————————————————————————————————
下面来说Pathway数据库
打开Pathway数据库首页:https://www.kegg.jp/kegg/pathway.html,可以看到Pathway的标识符和具体的pathway名称:
仅仅第一种参考通路是手动画出来的,其他的通路图都是通过计算产生的。pathway中的每一个框或线都对应一个或多个K编号、EC编号及R编号。
每个 Pathway图 由2-4个字母前缀代码和5个数字组成的组合(请参阅https://www.genome.jp/kegg/kegg3.html)。
(1)前缀含义如下:
① map - Reference pathway:对于代谢相关的通路,在reference pathway中,一个点同时表示一个基因,这个基因编码的酶或这个酶参加的反应
② ko - Reference pathway(KO):KO通路中的点只表示基因
③ ec - Reference pathway(EC):EC通路中的点只表示相关的酶
④ rn - Reference pathway(Reaction):Reaction通路中的点只表示该点参与的某个反应、反应物及反应类型
⑤ org - Organism-specific pathway map:对于所有的代谢和非代谢通路,K编号都被认为是基因的标识符,这个标识符在每一个物种中对应该物种中的某个基因,从而得到物种特异性的pathway。
【注:以上为pathway的五种类型,这5个内容是互相补充,相辅相成的。我们在使用时,常常需要穿梭使用。】
(2)以下列开头的数字用于不同类型的MAPs:
① 011 全局图(链接到KO的线)
② 012 概述图(链接到KO的线)
③ 010 化学结构图(没有KO的扩展)
④ 07 药物结构图(没有KO的扩展)
⑤ 其他常规图(链接到KO的框)
KEGG PATHWAY 与 MODULE 和 NETWORK 数据库集成在一起,如下所示。
① M-模块
② R-反应模块
③ N-网络
KEGG主页可以搜索的类型如:
- map00010
- ko00010
- ec00010
- rn00010
- hsa00010
方框中一共标注了7种内容。分别为代谢过程、基因信息、环境信息、细胞内过程、组织信息、涉及的人类疾病和药物研究信息。
每种内容包括如下内容:
1. 代谢
【注:map开头,没有kgml文件可下载】
2. 遗传信息处理
【注:map开头,没有kgml文件可下载】
3.环境信息处理
【注:map开头,没有kgml文件可下载】
4.细胞过程
【注:hsa开头,有kgml文件可下载】
5.组织系统
【注:hsa开头,有kgml文件可下载】
6.人类疾病
【注:hsa开头,有kgml文件可下载】
7.药物开发
【注:map开头,没有kgml文件可下载】
==================================================
五、Pathway的数据表示形式
参考链接:https://cloud.tencent.com/developer/article/1626035
KGML 文件: pathway 信息更加直观的存储方式
KGML 是 KEGG Markup Language 的简写,用于存储pathway中的相关元素。
虽然通路图很生动,但是由于pathway的复杂性,我们很难只从图片就看到对应的基因等信息,KGML 文件作为存储pathway信息的另外一种格式,就能够很好的解决这个问题。
KGML 文件主要存储了3种相互作用关系,前两种关系都是某一条pathway 中所有的基本元素之间的关系,第三种则是pathway之间的关系。
(1)蛋白质之间的相互作用关系,通过 relation 链接不同的 gene/protein;
(2)生物小分子compound之间的相互反应 , 通过 reacton 连接不同的 compound;
(3)pathway-pathway 之间的相互关系;
KGML 文件有两种获取途径:
(1)第一种是通过KEGG API 获取, 示例,获取 hsa00020 对应的kgml文件:http://rest.kegg.jp/get/hsa00020/kgml
注:KEGG API 的具体用法参考——https://www.kegg.jp/kegg/rest/keggapi.html
(2)第二种是通过网页直接下载,示例,通过点击“Download KGML”下载对应的kgml文件:https://www.kegg.jp/kegg-bin/show_pathway?hsa00020
==================================================
六、EGG Pathway分类
【参考链接:https://www.jianshu.com/p/98886417590d】
一般,KEGG中存在三大类代谢图,每个数据路的pathway都有相应的唯一编号,如map00010,据此可在kegg数据库官网查询。
(1)第一类是 reference pathway:根据已有的知识绘制的、概括的、详尽的具有一般参考意义的代谢图。
通路图中的小框都是白色,方便个性化填充颜色,在KEGG中名字以map开头,节点代表某一基因、该基因编码的酶及这个酶参与的反应,比如map00010。http://www.genome.jp/kegg-bin/show_pathway?map00010
(2)第二类是 species-specific pathway:物种特有代谢通路图。
绿色小框为该物种特有的基因或酶,只有这些绿色的框有更详细的信息。KEGG中名字为特定物种种属英文缩写,比如人的糖酵解通路图,hsa00010。
http://www.genome.jp/kegg-bin/show_pathway?hsa00010
(3)第三类是 以ko/ec/rn开头的Reference pathway:ko通路中的节点只代表基因;ec通路中的节点只代表相关的酶;rn通路中的节点只表示该点参与的某个反应、反应物及反应类型。底色以蓝色表示。
例如同样是糖酵解代谢通路有三种类型:
http://www.genome.jp/kegg-bin/show_pathway?ko00010
http://www.genome.jp/kegg-bin/show_pathway?ec00010
http://www.genome.jp/kegg-bin/show_pathway?rn00010
==================================================
图中的符号的解释:
代谢通路图中,一般就是酶,方框里面的数字代表EC编号;小圆圈代表代谢物,点开会出现C00668的信息,C代表compound,00668是这种化合物在KEGG中的编号。
具体官方解释如下(附链接):http://www.genome.jp/kegg/document/help_pathway.html