【知识图谱构建】Updates in Rhea – an expert curated resource of biochemical reactions 2022 (论文笔记)

文章概述

  • 关键词:反应知识库
  • 简介:Rhea (https://www.rhea-db.org)是一种基于化学本体ChEBI(生物兴趣化学实体)的生化反应的专家策划的知识库(https://www.ebi.ac.uk/chebi)。在本文中,我们描述了我们2019年核酸研究数据库问题的最后一个报告以来Rhea的许多关键发展。其中包括Rhea中改进的反应覆盖率,采用Rhea作为UniProt知识库UniProtKB (https://www.uniprot.org)中酶注释的参考词汇,开发一个新的Rhea网站,并将Rhea指定为ELIXIR核心数据资源。我们希望这些和其他发展将增强 Rhea 作为研究和设计酶及其功能代谢系统的参考资源的效用。
  • 内容:在本文中,我们强调了 Rhea 的许多关键发展,因为我们在核酸研究数据库问题中的最后一个出版物。这些包括 Rhea 和 UniProtKB 中改进的反应覆盖率,开发了一种新的 Rhea 网站的开发,该网站提供了强大的化学结构和本体搜索设施来挖掘 Rhea,并选择 Rhea 作为 ELIXIR 核心数据资源。

文章内容

Rhea反应覆盖度

  • 2021年6月119日Rhea发布描述了13673个独特的反应,涉及11 886个独特的反应参与者,15 500个独特的文献参考(PubMed标识符)、2500个策划反应的增加、1970个策划反应参与者和2889个精选的文献参考,自我们最后一次发表Rhea以来(描述2018年7月96日发布)(24)以来。Rhea 反应数据由专家生物化学家的文献管理,由 LitSuggest 等自然语言处理 (NLP) 工具支持,LitSuggest 是一种基于网络的文献推荐和管理系统 (25)。我们创建了一个 LitSuggest 模型,该模型识别与酶反应相关的文献,我们用它来为策展人提供每周新发表的文献摘要,并扫描 MEDLINE 中的所有现有文献,国家医学图书馆 (NLM) 书目数据库。LitSuggest 等工具对于从科学文献中填补酶知识空白至关重要。

Rhea在UniProtKB上的标注

2019 年,UniProt Consortium 采用 Rhea 作为 UniProt 知识库 UniProtKB (4-6) 中酶和转运蛋白注释的参考词汇表。Rhea 和 UniProt 策展人现在密切相关,Rhea 编辑团队根据 UniProt 策展人的请求来管理新的反应,然后他们将这些反应与 UniProtKB/Swiss-Prot 中审查的蛋白质序列条目中的酶和转运蛋白序列联系起来。UniProt自动注释资源UniRule为UniProtKB/TrEMBL(26)中未审查的蛋白质序列记录提供Rhea反应注释。UniProtKB 中的反应覆盖率增长了大约 40%,因为第一个出版物使用 Rhea (4) 描述 UniProtKB 中的酶注释,来自 2019 年 10 月 2019 年 10 月 09 日 UniProt 版本到 2021 年 6 月 03 日 UniProt 版本 2021 年 6 月 23 日的 92.94 次反应(约 68% 13 673 个 Rhea 反应)。UniProtKB 目前为超过 22,000 个 UniProtKB/Swiss-Prot 记录和 2320 万个 UniProtKB/TrEMBL 记录提供 Rhea 注释。这些注释通过 UniProt 网站、API 和 SPARQL 端点对 UniProtKB 中的酶进行了一系列增强的基于化学结构和化学本体的搜索。

Rhea在SwissLipids上的标注

除了 UniProtKB,Rhea 还为 SwissLipids 知识库 (10) 提供了反应数据,该知识库具有超过 700 000 个已知且理论上可行的脂质库,这些脂质完全映射到 ChEBI 本体和基于社区标准的质谱的脂质分类 (27)。Rhea 策展人与 SwissLipids 策展人密切合作,以捕获 ChEBI 和 Rhea 中脂质代谢途径的知识(瑞士Lipids 策展人随后用于枚举瑞士Lipid 中可能脂质结构的库),Rhea 目前包含超过 4600 个涉及脂质的反应。SwissLipids 和 Rhea 策展人也在一起工作,以“数字化”ChEBI 和 Rhea 中鞘脂通路 (www.sphingomap.org) (28) 的 SphinGOMAP 资源。SphinGOMAP 最初由 Alfred Merrill Jr 和合作者教授编译,是一种令人难以置信的字形鞘脂途径知识资源;将此知识映射到 ChEBI 和 Rhea 使其可用于计算并促进 UniProtKB 中相应酶的注释。

Rhea 网站

  • 2020 年 10 月发布的新 Rhea 网站提供了响应数据和强大的交互式搜索工具和编程访问的改进视图。我们总结了以下部分的主要特征,而用户也可以在 https://www.rhea-db.org/help 找到进一步的帮助。
  • 开发人员可以使用我们的npm包(https://www.npmjs.com/package/ @swissprot/rhea-reaction-visualizer)嵌入到自己的网页中。
  • 反应参与者部分(图 1B)提供有关每个反应参与者的信息,包括名称、标识符、电荷、公式、InChIKey(化学结构的简单散列表示,它编码三个不同块中连接、立体化学和电荷的信息) (https://www.inchi-trust.org) (30)、SMILES(放大分子输入线-入口系统)(http://opensmiles.org)、化学结构的线性符号和 2D 结构坐标 (MDL Molfile)。此外,本节允许用户在 Rhea 中发起搜索,通过与名称相关的多方面工具提示涉及每个参与者的反应。交叉引用部分(图 1C)提供了一系列资源的相关信息的链接,包括 KEGG (31)、Reactome (32)、MetaCyc (33)、EcoCyc (34) 和 M-CSA (35) 的反应,以及来自 UniProtKB、酶分类和 GO 的酶信息,并表明每个交叉引用应用的 Rhea 反应标识符的四重奏成员(图 1C)。其余部分是相关反应,它提供了当前反应的一般或特定形式(父/子反应)、出版物的反应列表,该出版物列出了反应的同行评审文献,以及评论提供了关于反应的附加信息。Rhea 反应页面还具有动作按钮(在每个页面的顶部),允许用户在剪板上复制反应方程的文本表示或以 RXN 或 RD 格式下载反应。
  • 搜索Rhea:用户可以通过提供可能包含化学名称、化学标识符(ChEBI、Beilstein 和 CAS 编号)和反应标识符(KEGG、Reactome、MetaCyc、EcoCyc 和 M-CSA)、酶类(EC 编号)、UniProtKB 登录号、GO 术语标识符和 PubMed 标识符的搜索字符串来搜索 Rheea。单击高级搜索打开查询构建器(图 2A),允许用户选择特定的搜索字段(这对于消歧很有用),并使用布尔运算符 AND、OR、NOT(图 2B)在字段中组合搜索。查询构建器还为某些字段(ChEBI 名称和 GO 分子功能术语)提供了一个自动完整的特征,帮助用户在类型时在许多相关可能性中进行选择。我们在补充表 1 中提供了 Rhea 中使用的查询字段的详尽列表。
    在这里插入图片描述
  • Rhea中的化学结构搜索:用户可以通过高级搜索或简单搜索界面(使用前缀“inchikey:”)使用完整或部分 InChIKeys 搜索 Rhea 反应。用户还可以使用下面描述的批量检索/ID映射功能将(完整或部分)InChIKeys的列表映射到Rhea反应。
  • Rhea中的化学相似性和子结构搜索:Rhea 网站支持通过 https://www.rhea-db.org/structuresearch 上的结构搜索接口搜索涉及与给定感兴趣的化合物相似的化合物或衍生物的反应。Rhea使用IDSM Sachem化学盒进行指纹引导相似性和子结构搜索(36)。用户可以使用提供的Ketcher分子编辑器(https://lifescience.opensource.epam)以有效的SMILES或导入或绘制结构的形式提供查询结构。com/ketcher)。
    在这里插入图片描述

在这里插入图片描述

  • 标识符映射:Rhea标识符映射服务(https://www.rhea-db.org/mapping)接受KEGG、Reactome、MetaCyc、EcoCyc和M-CSA反应的标识符,化学实体的标识符(目前ChEBI标识符和InChIKey),以及酶类和功能的标识符(目前来自GO分子功能分支的EC号和标识符)。用户可以复制粘贴标识符列表,或上传包含标识符列表的文件,并指定输入标识符类型,以获得其标识符到 Rhea 反应的映射。与高级搜索功能一样,GO 和 ChEBI 默认执行分层映射,其中用户指定的术语被映射到相关本体中映射到子术语的所有 Rhea 反应(图 4A),但下拉菜单还提供了精确映射选项(图 4B)。Rhea 标识符映射服务提供标准结果表的结果,每行附加列列出映射到该 Rhea 反应的用户提供的标识符(每行一个 Rhea 反应)。标识符映射工具还接受 Rhea 反应标识符,允许用户以表格格式检索 Rhea 反应列表。
  • 编程访问:Rhea通过RESTful url提供对Rhea网站上可用的所有数据、查询和工具的编程访问,用户可以在自己的程序中添加书签、链接和使用这些url。创建URL的最简单方法是使用我们的交互式高级查询构建器,然后使用Share图标获取可以添加必要格式参数的URL。单个反应数据以RXN和RD格式提供,搜索结果以可定制的选项卡分隔格式提供。补充表2提供了REST请求可能的查询参数,补充表3提供了自定义结果集可能的列列表。下面显示的示例(适用于Unix和Python 3)使用REST API检索映射到UniProtKB酶序列的所有Rhea反应,并将它们导出为包含Rhea反应标识符、反应方程和UniProt加入号的选项卡分隔文件。
  • Rhea SPARQL服务
  • Rhea作为ELIXIR核心数据资源的选择:ELIXIR (https://elixir-europe.org)(38)致力于将欧洲的国家中心和核心生物信息学资源连接到一个单一的生命科学数据协调基础设施中。ELIXIR已经创建了一个正式的流程来识别欧洲最关键的生命科学数据资源,这些资源被称为ELIXIR核心数据资源(cdr)(39,40)。ELIXIR于2021年选择Rhea作为ELIXIR核心数据资源。目前有22个ELIXIR核心数据资源(cdr),涵盖基因和基因组、蛋白质、小分子、分子结构、相互作用和文献。Rhea是第一个专注于反应和桥接的ELIXIR CDR UniProt(用于蛋白质的ELIXIR CDR)和ChEBI(用于小分子的ELIXIR CDR)。

在这里插入图片描述

讨论

Rhea是计算可处理的酶和转运反应数据的参考资源,也是UniProtKB中酶和转运体注释的标准。Rhea网站、API和SPARQL端点提供了一个强大的工具箱,可以为广泛的应用程序挖掘Rhea反应数据集,而UniProt网站、API和SPARQL端点允许用户利用使用Rhea创建的快速增长的酶和转运蛋白注释集。也许最近出现的Rhea(和UniProt)数据最令人兴奋的应用之一是使用机器智能来研究和设计酶、生物合成和生物修复途径——结合最先进的语言深度学习模型来描述蛋白质序列(41-46)和小分子化学(47-50)。我们将继续开发Rhea数据集、网站和程序化访问模式,以更好地支持这些和其他应用,并将继续与其他关键知识资源(如UniProt、GO和Reactome)合作,以提高我们所有资源中酶、转运体和反应数据的一致性和互操作性

Rhea获取

Rhea网站可访问https://www.rhea-db.org/, Rhea SPARQL端点可访问https://sparql。rhea-db.org。Rhea中的所有数据在知识共享署名许可(CC BY 4.0)下免费提供,用户可以从我们的FTP站点https://ftp.expasy.org/databases/rhea/下载以下格式:RDF, BioPAX, RXN/RD和TSV。有关Rhea提供的不同可下载文件的更多信息,请访问https://www.rhea-db.org/download。我们现在同步Rhea和UniProtKB版本(截至2020年2月),大约每八周发布一次。我们在Rhea ftp站点上提供了与Rhea和UniProtKB发布相对应的ChEBI数据快照,以及以MOL和SDF格式导出的2D结构。关于如何使用Rhea网站的视频教程可以在SIB(瑞士生物信息学研究所)YouTube频道https://www上免费获得。youtube.com/channel/UCPo4ED WAKjwQ878cca6 oQ -我们在补充表4中列出了可用的视频。希望有反应添加到Rhea的用户非常欢迎使用反馈表(https://www。Rhea-db.org/feedback) -从我们的用户输入是高度赞赏的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值