【知识图谱构建】Rhea—a manually curated resource of biochemical reactions (论文笔记)

文章概述

  • 关键词:生物反应数据库、代谢网络重建、路径推断、酶催化反应、过度反应、反应过程中的其他反应
  • 内容:Rhea 生物反应数据库使用了CHEBI描述化学反应中的实体,并且在质量和电荷方面是保持计量化学平衡的。这些反应被手动链接到目标文章和其他公开的包含酶和路径数据库的代谢资源中。

文章内容

Rhea的目标和应用范围

  • 目标:为了酶的功能性标注、路径推断和代谢网络重建提供一个非冗余的化学转换反应资源
    • Rhea 项目的一个重要目标是将 ChEBI 中的化学信息与描述酶反应的资源联系起来,例如 IntEnz(整合关系酶数据库)(17),其中包含 EC 编号组织的酶数据(图 2)。
  • 贡献:Rhea使用了CHEBI提供了生物化学反应的明确的表示
  • 需要解决的问题
    • 通用化合物名称和标准命名法的不一致用法会导致反应和需要人工标注修正的化合物描述的含糊语义情况。
    • 通用化合物标签用于描述混合物可能带来另一种歧义
    • 反应中的互变异构体会带来第三种含糊语义的情况
  • Rhea如何解决上述问题
    • 对每一个相关的反应提供了明确的描述,允许包含NAD+/NADH或者NADP+/NADPH的反应的明确分配。
    • Rhea同时提供了用于关联相同化合物的互变异构体的互变反应

尽管Rhea试图尽可能减少或消除反应描述中的歧义,但对反应化学知识的不完整还是有一定的考虑。Rhea提供了不完全反应,其中不是所有的反应物都是已知的,并且反应不一定是平衡的。这些反应可以通过它们的“初步”状态清楚地识别出来。

在这里插入图片描述

Rhea中反应的表示

  • 使用的辅助工具:CHEBI包含了化学分子式和电荷以及术语和不同化学格式的2D结构信息。2D结构的信息可用于反应搜索,展示以及导出,也包括校验和平衡。
  • Rhea使用CHEBI本体为反应提供了明确的表示。这些反应通过化学专家手动地组织和链接到其他的资源上去,包括底层结构信息。
  • Rhea中的每一种可能的反应都有一个独特的“主反应”,它独立于任何生物环境,没有相关的方向信息。
  • 主反应的表示
    • 包含一个唯一的标识符
    • 包含两个反应部分(左部分和右部分)
    • 描述反应类型和反应是否平衡的一组限定词
    • 目前的状态(批准的、初步的或过时的)
  • 反应的左右部分由一系列的参与化合物,化学计量系数或者本地化形式。化合物由CHEBI的标识符、名称、化学式、电荷和可能一个2D的结构定义。
  • 为了保证数据的一致性,Rhea做了额外的数据约束
    • 相同的化合物(ChEBI ID,定位)不能出现在反应的两边。这导致排除某些常见的物种,如Mg2+ -ATP中的Mg2+。
    • 反应的质量和电荷在化学上必须是平衡的,即在方程式的左右部分中发现的化合物必须具有相同的每种类型的原子总数和相同的净电荷。
    • 反应必须是唯一的。为了确保这种唯一性,根据两个反应部分的化合物(ChEBI ID、系数、定位)计算指纹。
  • 每个唯一的主反应都与三个方向反应相关联——正向、反向和双向(可逆)——每个方向反应都有一个独特的标识符(表1)。但这一特性允许来自外部资源的定向反应与Rhea中适当的定向反应相关联(表1)。这种方法的缺点是,根据目前的知识,Rhea可能包含在生物系统中不可行的定向反应。
    在这里插入图片描述
    在这里插入图片描述

在任意选择的pH值为7.3时,每个主反应都是唯一的。Rhea使用ChemAxon (http://www.chemaxon.com)的Marvin pKa计算器来选择在pH 7.3和298 K温度下发现的每种化合物的主要种类。对于某些化合物,如磷酸盐,pH 7.3时的主要物质(即HPO 42)可能只比其他次要物质(如h2po4)略多,因此反应表示是对实际状态的简化。然而,选择主要的物质是为了保证数据的一致性,因为所有的反应都会使用相同的质子化状态(反应是完全平衡的,包括质子)。请注意,Rhea提供的导出格式允许用户使用常用的化学信息学工具计算其他pH值下的结构。

Rhea的管理

  • 管理状态:每个主反应都有一个管理状态,它是已批准、初步或过时之一。要批准,反应必须满足上一节中描述的约束,与唯一性和平衡有关。反应还可以具有描述性限定词,例如“化学平衡”、“运输”、“反应类别”和“聚合”。
  • 手动管理过程
    • 验证所选 ChEBI 实体(由化学信息学工具辅助)
    • 添加原始文献引用以及添加对其他资源的交叉引用 (Rhea 引用在 EBI 的 CiteXplore 参考书目数据库 (http://www.ebi.ac.uk/citxplore/) 中管理。Rhea交叉引用了几个描述生化反应的资源,包括KEGG、EcoCyc/MetaCyc和UniPathway),这些交叉引用将 Rhea 中反应的特定方向实例与其他资源的关系联系起来。根据反应参与者(ChEBI化合物)和指示的反应方向,将交叉引用自动添加到Reactome】和MACiE中。
    • 为参与的 ChEBI 化合物选择描述性名称或标签,以便提供更容易理解(人类可读)的反应描述。

Rhea与相关资源的对比

当 Rhea 项目启动时,唯一免费可用的反应数据库是 KEGG LIGAND 数据库。在干预期间,已经有几个额外的资源包含有关化合物和反应的信息(而 KEGG 数据现在需要订阅下载)。其中一些新可用资源侧重于催化化学反应的酶 [例如 BRENDA、ExplorEnz、酶 和上述 IntEnz],而另一些则提供有关反应机理的详细信息 [例如 EzCatDB、MACiE] 或动力学数据 [例如 BRENDA、SABIO-RK]。提供综合反应数据的资源与 Rhea 的范围相当,包括 BioPath、KEGG和 MetaCyc。
在这里插入图片描述

提交至Rhea

Rhea 欢迎描述 Rhea 中目前不可用的反应的提交。所有新的反应提交都应该发布在我们的 SourceForge 反应请求/更新跟踪器 (https://sourceforge.net/projects/rhea-ebi/) 上,相关信息包括每个反应参与者的 ChEBI 标识符和对其他相关数据库和来源文献的交叉引用可用。

Rhea content

在写作时,Rhea(第 24 版)包括 43221 个主反应(每个反应都与三个方向反应相关),涉及 3788 个不同的 ChEBI 化学实体。其中,251 是运输反应。在 4596 个酶条目 (EC 编号) 的相应 IntEnz 数据库中(第 71 版)3145 个具有它们在 Rhea 中描述的反应。这对应于总共 3658 个不同的 Rheea 反应(因为反应和酶之间可能存在多对多关系)。该数据库由月度版本更新。更新与 ChEBI 版本同步。
在这里插入图片描述

Rhea web 服务器

Rhea Web 服务器 (http://www.ebi.ac.uk/rhea) 可以访问 Rheea 数据。它提供了浏览、搜索、web服务和下载设施。

  • 查询方式:

    • 来自 Rhea 的反应标识符或任何交叉引用资源
    • ChEBI 中的复合名称或标识符。ChEBI 索引用于解析任何同义词和交叉引用
    • 描述反应的方程。Rhea 搜索工具将尝试解析并返回任何匹配反应。如果没有找到,它将寻找类似的反应,即尽可能使用方程中的尽可能多的参与者。
    • EC编号、酶名称或UniProtKB/Swiss-Prot标识符。IntEnz 索引用于解析任何酶同义词
    • 书目引用,或其中的任何部分,例如作者姓名、标题、摘要或出版标识符(PubMed 标识符)
    • 此外,高级搜索页面允许搜索仅限于特定领域(例如反应参与者、交叉引用或引用)并执行结构搜索。在后一种情况下,用户可以通过 JChemPaint applet (jchempaint.sourceforge.net) 导入或绘制 2D 结构,然后化学结构搜索算法 OrChem (22) 将对 Rhea 中涉及的化合物集执行子结构或相似性搜索。ChEBI web 服务器 (http://www.ebi.ac.uk/chebi/userManualForward) 上提供了结构搜索的完整文档。
  • 下载

    • 所有 Rhea 数据都可以免费下载 (http://www.ebi.ac.uk/rhea/download.xhtml) 三种格式。BioPAX (23) 是为生物通路数据创建数据交换格式的协作努力。它是用 OWL 定义的,用 RDF/XML 语法表示。Rhea反应对应于生化反应、运输和运输与生物化学反应BioPax类。BioPAX 导出的示例在补充数据部分中给出(补充图 S1)。Rxn 是 Accelrys(前 Symyx 和 MDL)指定的化学表 (CT) 文件格式之一。Rxn表示单向过程,因此RXN中的Rhea输出只包含Rhea反应的这个子集。RD(反应数据)是第二个 CT 文件格式,由一组记录组成,每条记录定义一个方向反应(以 RXN 格式)和相关数据。
    • Rhea 引用的 ChEBI 化合物子集的 2D 结构也可用作 SDF 文件,这是一种由 Accelrys 指定的化学格式(由 MDL 形成 24)。该格式包括有关每个感兴趣分子的原子、键、连通性和坐标的信息。

Web 服务

  • Rhea 资源作为 RESTful Web 服务公开。标准HTTP GET请求的结果在RXN(24)、BioPAX Level 2 (23) 或 CMLReeact 格式 (25),具体取决于 HTTP Accept 标头或请求的 URL。之一被发送到客户端(例如web浏览器)
  • 服务有两种方法:一种用于一般搜索反应,另一种用于检索反应的完整条目。
  • Rhea Web Service 的主要用例是客户端应用程序,它调用搜索方法以所需的格式获得反应 URL 列表,然后访问这些 URL 以检索完整的反应条目。另一个用例是客户端应用程序,它获取在其他服务中引用的 Rhea 标识符,然后创建指定它需要检索反应完整条目的格式的 URL。服务 URL 和如何访问服务的指令可以在 http://www.ebi.ac.uk/rhea/rest/1.0 找到。

软件

  • Rhea 数据库架构和软件工具分发为开源(http://sourceforge.net/projects/rhea-ebi/),允许最终用户下载并安装自己的本地反应数据库。所有软件都是用 Java 6 编写的。
  • 软件包包括其他内容:
    • 数据库模式——允许数据的存储和验证。
    • 领域模型和数据验证器——提供反应模型和验证反应的能力。
    • Rhea 注释工具——为管理员添加和修改自己的反应提供了能力。
    • Rhea公共网站——允许反应可视化。
      Rhea 数据库运行在 Oracle 11 g (http://www.oracle.com)。然而,微小的调整允许它在 MySQL (www.mysql) 等开放数据库平台上运行。com)。

未来的研究方向

与通用蛋白质资源知识库UniProtKB(13)的协同发展正在进行中,目的是使用Rhea作为参考词汇来描述UniProtKB蛋白质序列记录中的酶促反应。Rhea 还旨在作为化学反应的一般资源,用于重建基因组规模的代谢网络,如 Microme (http://www.microme.eu) 和 MetaNetX (http://www.metanetx.org) 倡议所示。我们正在检查许多精选的代谢网络,以识别感兴趣的缺失反应并在 Rhea 中整理这些,目的是增强该反应资源的独特内容。我们还开发和增强了我们的提交工具以允许批量提交,从而加快了 Rhea 在新反应中的人口。我们还将进一步利用 ChEBI 的化学本体,其中反应参与者之间的关系可以作为开发逻辑反应分类的基础。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值