BIB | KGDiff: 通过知识引导生成可解释的目标感知分子

45c1ac3e1ac115e9c0f166677ab98752.png

来源:AI in Graph
本文约3000字,建议阅读10分钟
本文作者提出了一种针对蛋白质靶标的全新的从头生成分子的方法。

88fcc552f3bac67454a8ed90d6d9eff9.png

今天给大家分享上海交通大学涂仕奎教授团队近期发表在Briefings in Bioinformatics上的一篇论文“KGDiff: towards explainable target-aware molecule generation with knowledge guidance”。针对特定蛋白质设计具有高亲和力的分子是药物设计的关键。一个挑战是必须考虑分子与蛋白质在三维空间中的相互作用。然而,现有的方法仅仅从数据角度拟合分子和蛋白质之间的联合分布,而忽略了它们之间的结合亲和力,这导致了目前基于蛋白靶点的分子生成方法性能有限。

在本文中,作者提出了一个可解释的扩散模型 KGDiff,用于生成能与蛋白有高亲和力的分子。KGDiff 显式地将蛋白质-配体结合亲和力的化学知识纳入扩散模型,并使用该知识指导去噪过程朝向高结合亲和力的方向。具体来说,作者设计了一个 SE(3)-invariant 的专家网络学习领域知识,并与去噪网络一起进行联合训练。通过利用专家网络的梯度,KGDiff 能够在原子坐标和原子类型上对降噪过程进行有效的指导。作者在 CrossDocked2020 基准集上的实验展示了 KGDiff 的优越性。此外,专家网络对生成的分子中每个原子的评分使得模型具有原子级可解释性。

Part1背景介绍

目前已有众多基于 1D 分子字符串或 2D 分子图的生成模型,由于难以仅从序列或 2D 图输入中捕获蛋白质和分子间的相互作用,因此这些方法存在一定的局限性。实际上,蛋白质与配体的相互作用高度依赖于它们的三维结构。如今,专为深度学习设计的 3D 分子蛋白质结合数据库的出现,例如 CrossDocked2020,为新一代深度生成模型的发展提供了新的机遇。与之前的方法不同,这些新方法专注于学习蛋白质口袋和分子在三维空间中的分布。例如,LiGAN 通过体素化蛋白质-配体复合物的三维空间,并在条件 VAE 框架内使用 3D CNN 提取原子特征。GraphBP、AR、Pocket2Mol 和 FLAG 等方法采用自回归方法和图神经网络(GNNs),在蛋白质口袋的三维空间中自回归式地生成原子或基团。TargetDiff、DiffBP 和 DiffSBDD 等利用扩散模型,通过迭代去噪的方式生成分子。

尽管现有方法能够针对特定蛋白质口袋生成合法的分子,但它们依然面临两大限制。首先,作为药物候选物,分子必须能够与蛋白质靶标有效结合,即具备高亲和力。然而,目前的模型通过拟合分子和蛋白质的联合分布,并不能准确判断分子与蛋白质之间能否有效结合,因为这些模型无法清楚地识别复合物间的亲和能大小。其次,现有模型生成的分子在生物化学角度上难以解释,人们并不清楚模型为何会生成这样的分子。

为了克服上述局限性,作者提出了一种知识引导的扩散模型(KGDiff),用于生成具有高亲和力的分子。首先,通过训练 SE(3)-invariant 的专家神经网络,KGDiff 能够辨别分子蛋白复合物之间的亲和力大小。其次,作者设计了对离散原子类型和连续原子坐标的有效指导,使得去噪过程以受控方式生成具有高亲和力的分子。在 CrossDocked2020 上的实验结果证明了 KGDiff 相对于现有最先进模型的优越性。此外,本文提供了生成分子的原子级解释,并建立了与领域知识的联系。作者还证明了 KGDiff 倾向于具有凹面的大口袋,并且能够生成具有蛋白质亚型选择性的分子。

Part2方法介绍

9a9c24694b715debfed8000c972b6d0c.png

KGDiff 是一个基于扩散的生成模型。在训练阶段,它同时接受蛋白质和分子作为输入,借助前向的扩散过程将分子转化为噪声化、损坏的状态,同时保持蛋白质结构不变。然后,实施反向的去噪过程来重构输入的分子。KGDiff 的关键贡献是将领域知识,即结合亲和力融入去噪过程,并引导该过程生成与蛋白质具有高亲和力的分子。

在本文中,作者提出通过学习 Vina 函数中的亲和力项(在补充材料的公式(S1)-(S3)中给出)来提炼亲和力计算中的领域知识。如图 1 所示,作者设计了一个带有共享特征提取模块的双分支神经网络 ,用于去噪预测和亲和力适配:

其中  进一步用于计算 ,具体计算过程参考补充材料公式 S9-S10。这里 t 表示扩散步骤。 是基于模型预测的结合亲和力。

具体来说,神经网络  首先通过 SE(3)-equivariant GNN  进行原子的表示学习,然后分别通过两个多层感知器(MLP)函数进行原子类型和结合亲和力预测。也即有:

其中  是 sigmoid 函数,因此  的范围在 [0, 1] 之间。较大的  表示高结合亲和力。函数  是一个具有 L 层的 SE(3)-equivariant GNN,其 (l + 1) 层的计算如下:

其中  表示第 l 层中原子 i 和原子 j 之间的欧几里得距离, 表示消息传递的方向,包括从蛋白质到蛋白质、从蛋白质到配体、从配体到蛋白质、从配体到配体。函数  和  是图注意力网络。 是保持蛋白质原子坐标固定的配体的掩码矩阵。作者用  表示所有通过公式(4)学习的原子类型嵌入,并将其输入到公式(2)中进行去噪预测和亲和力预测。

由于在平移和旋转操作下距离  保持不变,且 ,  和  的初始值来自于原子类型和边特征,它们也保持 SE(3)-invariant,因此可以得出结论,公式(4)中更新节点信息的方式使  保持 SE(3)-invariant。因此, 也保持 SE(3)-invariant,这是合理的,因为平移和旋转蛋白质-配体复合物不应改变结合亲和力。

最终,模型训练的损失函数为:

其中, 和  是缩放因子,而  是一个分类分布。

在生成过程中,作者设计了两种 guidance 的方式,用于引导 KGDiff 朝着能够生成高亲和力分子的方向:

Part3实验部分

b313e41219dfed4b075870943ad3347e.png

如表 1 所示, KGDiff 在所有与结合相关的指标上均优于现有的最先进方法,包括 Vina 得分、Vina 最小化、Vina 对接和高亲和力。其中,Vina 得分是该任务中最重要的指标,因为它直接评估了生成的 3D 分子的结合亲和力,而无需优化分子构象。特别是与最近的分子扩散模型 TargetDiff 相比,KGDiff 在 Vina 得分的平均值上增加了 46.2%,在中位数上增加了 36.2%。这表明了 KGDiff 中知识引导方法的有效性。

Part4可解释性

为了更清楚地说明,首先定义“口袋洞口界面”:它指的是与外部环境相连的蛋白质口袋表面区域。如图所示,在第一个例子的左侧相机视角中,浅蓝色区域是一个“口袋洞口界面”,因为它将欧式空间分成两部分,即蛋白质口袋和外部环境。显而易见,大多数得分较低的原子经常位于“口袋洞口界面”附近,并且周围的蛋白质原子数量较少。在第一个例子中,在最右侧相机视角下,观察到赋予低分的碳原子位于连接咪唑环的乙基末端,并靠近 “口袋洞口界面”。相反,咪唑环位于口袋内部,因此得分相对较高。(“predict score”代表由专家网络生成的分数,范围从 0 到 1,其中更高的分数表示更高的结合亲和力。红色高亮的原子表示其分数高于分子中所有原子的平均分数,颜色越深红表示分数越高。相反,蓝色高亮的原子表示其分数低于平均值,颜色越深蓝表示分数越低。每个原子周围的粗体数字表示该原子 8Å 范围内的蛋白质原子数量。)在第二个和第三个示例中,作者也观察到了类似的模式,分别用蓝色和红色箭头指示。

31144a6301f5b91c728c77de2de431c8.png

作者进行了额外的统计分析,以进一步展示口袋内蛋白质原子密度对原子得分的影响。这是通过研究单个原子的得分与其周围 8Å 半径内的蛋白质原子数量之间的相关性来实现的,这个距离通常被认为是许多对接程序(包括 Vina)中非共价相互作用的最大距离。如图 5 所示,预测的配体原子得分随着周围蛋白质原子数量的增加而趋于增加。

4162d4301c3be74740e6ccadc028fd96.png

这些发现也可以从生物化学的角度进行解释。在“口袋洞口界面”附近,蛋白质原子的相对低密度使得配体原子参与有效的非共价相互作用(例如盐桥和 π-π 堆叠)的可能性较小。相反,得分较高的原子主要位于蛋白质口袋内部。这些位置展示了更高的蛋白质原子密度,导致更强的蛋白质-分子相互作用。

Part5结论

在这项研究中,作者提出了一种针对蛋白质靶标的全新的从头生成分子的方法。通过采用一个专门设计来学习每个去噪步骤中结合亲和力领域知识的专家网络,KGDiff 引导分子生成过程朝向高结合亲和力。此外,作者对生成的结果进行了全面分析,揭示了专家网络学习到的底层机制。在 CrossDocked 数据集上的实验评估为 KGDiff 模型的有效性提供了有力证据,突显了其在基于蛋白质结构的药物设计领域的潜力。

编辑:黄继彦

48d26feb5cf45e572a9b1a19559e2742.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值