Nature 子刊 | 超算+AI为天然产物生物合成路线规划提供导航

中山大学药学院与多方合作开发出BioNavi-NP,这是一个基于深度学习的天然产物生物合成途径预测工具。该模型在内部和外部测试集上表现出色,能有效预测复杂天然产物的生物合成路径,对于药物研发和生物合成具有重大意义。BioNavi-NP通过生物变压器神经网络和与或树搜索算法解决了路径预测的挑战,并提供了一个用户友好的在线平台。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

导读:天然产物(Natural Products)是临床药物开发的主要来源,解析天然产物的生物合成途径是实现生物合成中最基础的一步。然而,目前超过90%的天然产物其完整生物合成途径仍然未知。中山大学药学院巫瑞波教授课题组与国家超级计算广州中心杨跃东教授联合星药科技、麻省理工学院和佐治亚理工学院,依托“天河二号”开发了基于深度学习的天然产物生物合成途径导航器BioNavi-NP, 并在多个公开测试集中获得出色验证。该研究对天然产物生源途径的发现,以及异源生物合成途径的重构设计具有重要意义。相关成果于2022年6月正式发表在国际知名期刊《Nature Communication》。

天然产物(Natural Products)是临床药物开发的主要来源,1981-2020这三十年间获批上市的小分子药物中超过60%是天然产物及其衍生物或类似物。由于从自然界直接提取的方法往往会对生物多样性造成破坏,而天然产物结构中多样的环体系和手性中心导致其化学合成难度较大,因此异源生物合成是获得复杂天然产物的重要手段。解析天然产物生物合成途径是实现异源生物合成中最基础的一步,然而现有生物代谢反应数据库(KEGG,MetaCyc,MetaNetX等)中仅涉及到约3万个天然产物,远小于目前已知的天然产物数目(超过30万)。大量天然产物的生物合成途径目前仍然未知,这极大地限制了天然产物的生物合成。

目前虽然已有基于数据库和反应规则的生物合成路径预测工具,但由于本身已知的酶反应数量不足,且由于不同酶的催化杂泛性和专一性也不同,导致现有反应规则(模板)无法很好地反映酶的催化功能。因此,对于以酶催化反应为核心的生物合成来说,现有基于模板的方法给出的反应路径在实际中常常无法通过相应的酶来催化,并且对于许多生源合成步骤较长,结构较复杂的天然产物,并没有相似度较高的反应模板与之匹配。同时单步反应的预测误差在多步的反应路径预测中会不断积累,因此对于天然产物生物合成路径预测来说,不仅需要提高单步反应的预测精度,同时还需要配合高效的搜索算法对每一步的候选反应进行高效且准确的筛选。

0ab0df4c8241d742d31b562066106a4d.png

为了解决这一问题,中山大学药学院巫瑞波教授课题组与国家超级计算广州中心杨跃东教授联合星药科技、麻省理工学院和佐治亚理工学院,基于超算的强大计算能力,提出一种深度学习驱动的生物逆合成路径导航工具BioNavi-NP。该工作近日发表于Nat Commun杂志,论文的共同第一作者为郑双佳曾涛两位博士生。如图1所示,该框架中,研究者们首先训练一个生物变压器神经网络来进行单步生物逆合成预测,即生成任意目标天然产物的候选前体。在训练好的单步生物反应预测模型的基础上,研究者们进一步开发了一个自动逆向生物合成路线规划系统BioNavi-NP。该系统通过深度学习驱动的基于与或树(AND-OR tree)的搜索算法来解决合成途径潜在大量分支反应造成的组合爆炸问题,从而能够高效且准确地规划出合理的天然产物生物合成途径。给定目标天然产物,BioNavi-NP可在几分钟内给出其到指定分子砌块(building block)的多条路径,并根据已知反应或酶对路径进行打分排序。大量的实验表明,相较于目前最先进的生物合成路径预测方法,BioNavi-NP在内部测试集和外部独立测试集中都表现出了明显的竞争优势。

d81b3335e79b0ed460ec2d16e55fafba.png

图1. BioNavi-NP模型示意图

具体来说,在内部测试集中, BioNavi-NP成功找到了368个测试天然产物中90.2%的生物合成途径,并命中了72.8%的化合物的基本构建块(building block),远超出基于模板的搜索方法以及其他搜索算法变体,证明了其在生物逆合成途径阐明和路线重构方面的潜力。预测对比结果见图2。在外部独立测试集的152个天然产物中,BioNavi-NP更是以94.7%的预测成功率超过目前的最优预测方法RetroPathRL(83.6%),计算效率上则与RetroPathRL相当(见原始论文正文及其附件)。

b7d495b96d4e37de630de34de3a7f01d.png

图2. BioNavi-NP在Metacyc天然产物测试集上与最新预测方法的比较结果。

研究者们利用该模型构建了一个用户友好的互动网站(http://biopathnavi.qmclab.com/)。用户仅需要输入感兴趣的天然产物分子,配合基本的参数,便可在数分钟内预测得到其多条可能的生物合成途径。对于多步骤生物反合成路线中的每个生物合成步骤,研究者们可通过网站预先嵌入的酶预测工具Selenzyme和E-zyme进一步评估合成所需要的酶。预测的反应途径将按照计算成本、长度和生物体特定的酶进行分类。

4caf68bd38a5bfbbffd8d37df22b35ad.png

图3:BioNavi-NP网站输出结果示意图

BioNavi-NP网站对目标化合物的预测结果如图3所示,对于来自多种合成途径的复杂分子(如novobiocic acid和sterhirsutin J),BioNavi-NP能够正确对其结构进行拆分并分别找到其对应的分子砌块。在对戊二酸(glutarate)的生物合成途径预测结果中,BioNavi-NP不仅顺利预测出了已知的两条路径(分别排序第三和第七),并且结果中排序第四的路径与不久前Wang等人(ACS Synth. Biol. 2017, 6, 1922-1930)在大肠杆菌构建的新颖路径基本一致(只缺少部分中间步骤)。这说明BioNavi-NP不仅能对天然产物未知的生源途径做出预测,还能对其异源生物合成途径的重构提供重要参考。

本研究提出了一种新颖的端到端深度学习框架BioNavi-NP,利用生物变压神经网络(BioTransformer)及与或树(And-Or-Tree)驱动的深度搜索算法预测天然产物的生物合成途径。在已知的天然产物生物合成途径理论预测工具中,这是第一个无需模板的逆生物合成全路径预测模型。实验评估表明,BioNavi-NP模型在内部测试集及多个外部独立公共测试集上都显示出了优异的性能。网站工具的搭建以及酶预测工具的嵌入,使得研究者们能够便利地使用该工具进行合成生物学的研究。文末,作者对当前BioNavi-NP模型的一些局限性也作了讨论。未来,该框架将嵌入多种路径打分排序方法以及原子映射技术,以进一步提高模型的可用性及可解释性,进而推动天然产物生物合成新途径的发现。

原文链接:

https://www.nature.com/articles/s41467-022-30970-9

BioNavi-NP网站链接: 

http://biopathnavi.qmclab.com/

往期精品(点击图片直达文字对应教程)

530def7d49210be539448088bdba21b8.png

e7cc517b79329d8776db4b2243d2aac6.png

a8a57f0c0910dddab3e7e575114d025e.png

137d2d0c2f2796d5dad2c331c2b3ee16.png

3736d268f0b4e25559ea74f63f271af4.png

540095f0243fe8afbc6261da7a23e225.png

728ab1422ea941687f501d9433d8917e.png

1da5caf2edd325ac2563f456ebda2963.png

60f04036550a82b1188c8171059dccc5.png

8ef4ada58d0764729f05cf7a3f304d6f.png

77e4a155075dffcf818aade961e2d1af.png

7c01506e5f6477c5a36881ee5f4cbac5.png

31a2aa25a15d2d181110cef45ed3bde2.png

207ca5b198338c229d2ac4cbc7867a49.png

9e2df39b37a4d53fd360c4c92c52d152.png

36c29ac11e7a6592b372f82aa2fc417b.png

5350f46a59aca999ee43633e42fe5c46.png

dc1b2660b1fe3a2911dc650f2f533d5e.png

62095761f0ce34b3afe1129284347a3b.png

4c4d6556348388dcec20b10c82e94601.png

1d85e25fdbe7d29ddbd021bba93feae1.png

e61cbbfeeb2437fa78cd06eff9790218.png

8c553d17e6e3f3fb721c1afdf37ae552.png

7c8bb9a4b71bd97494ff6c7c878db2ab.png

0caac2b7335d561b9e9fdc43fd7157d3.png

b9749da75b9900aadccbb4e4c32a5954.png

749d8278b31a3ebc879ae538434798cb.png

db75d7876f2356af5693c65c80790d4c.png

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

e8d73d5096c996a82769a115d8d8e7d1.png

df82492ff976be872af923afa9824e40.png

d0c12ef2272d5af10d8f821d38934a63.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值