Cell子刊综述:药物研发进入智能生成时代

84f55c7ce4bdf64c17ee64785e158eec.gif

f3b1e5fbeb31dbfdb5e4eaf6d09378d7.png

今天我们来重磅介绍一篇最近发表在 Cell Reports Medicine,作者为湖南大学曾湘祥教授,康奈尔大学 Fei Wang 教授,芝加哥西北大学大学 Yuan Luo 教授, MILA Jian Tang 教授,IBM 的 Seung-gu Kang 和 Wendy Cornel 教授,劳伦斯利弗莫尔国家实验室的 Felice C. Lightstone 教授,挪威奥斯陆大学的 Evandro F. Fang 教授,以色列特拉维夫大学 Ruth Nussinov 教授,美国克利夫兰医院的 Feixiong Cheng 教授的综述“Deep Generative Molecular Design Reshapes Drug Discovery”。文章为广大科研人员特别是非计算机领域专家提供 AI 分子生成模型工具指南,同时指出了目前该领域所面临的挑战以及未来的解决方向。

062c705add5af8e71e0bd8a0060599a0.png

深度生成模型通过学习相应数据的分布和加入条件来生成具有所需特性的化合物,其创新可以显著促进算法的开发和在药物发现中的应用。在这个“大数据”时代,深度生成模型将彻底改变生物学、疾病和治疗学的信息观。在某些情况下,它比传统方法所需的时间更短。如果大规模应用,深度生成建模具有促进开发过程的潜力。因此,作者总结了现有的深度生成模型原理,分子生成涉及的相关常用数据库以及其应用,如下图所示。

c2796e4d92d5d19ed2c0c40068832aef.png

▲ 图1 AI应用药物设计的多个过程

d2978747e3811c9743026dfa1dff1950.png

工具介绍

设计一种新药因需要满足一定的条件例如特定靶标、与靶外相关的物理化学特性以及其他生物学指标而极为复杂。深度生成模型之所以流行,是因为它们能够以一种既经济又高效的方式自动生成新的具有生物活性且可合成的分子。下面介绍深度生成模型中经常使用的工具。

1.1 分子表示和数据集

小分子通常用 SMILES 和 Graph 表示,现在越来越多的模型集中于研究分子的 3D 表示生成,对于蛋白质这种大分子,也有一维的氨基酸序列和二维的接触图,另外,传统的蛋白质图像或 3D 表示需要从冷冻电子显微镜和晶体学中获得准确的 3D 结构数据,但这种途径效率都比较低。最近的 AI 方法,例如 AlphaFold2,可以提供大量的蛋白质 3D 数据来应对这些挑战。

化学生物信息学数据库通常提供标记与未标记的数据来训练分子生成模型。其中,公开数据集有包含近 20 亿市售可获得的类药化合物库 ZINC,囊括许多特殊靶点的数据集 ChEMBL,大型有机分子数据库 GDB-17,超大化学数据库 Enamine 和 REALdb,以及一些蛋白质数据库例如 PDB 等。

859e2434077962480f4abab66f78fb09.png

▲ 图2(a)基于一维序列的表示;(b)基于图的表示;(c)小分子和大分子的三维表示。

1.2 常见生成模

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值