从3D结构中增强蛋白质-配体的结合亲和力预测

ML中的归纳偏差(inductive bias)是描述模型如何进行预测的一组假设。不同的基于ML的蛋白质-配体结合亲和力预测方法(PLA)具有不同的归纳偏差,并导致不同程度的泛化能力和可解释性。直观地说,基于ML的PLA模型的归纳偏差应该与与结合相关的生物学机制相适应,以获得有意义的预测。为此,作者提出了一种基于相互作用的归纳偏差,将神经网络限制为与化学意义的结合相关,并有两个假设:

  • 蛋白质-配体复合物可以自然地表达为具有共价和非共价相互作用的异质图;
  • 预测的PLA是由非共价相互作用确定的成对原子-原子亲和力之和。

基于相互作用的inductive bias通过一个可解释的异构相互作用图神经网络EHIGN来体现,用于显式建模原子-原子的配对相互作用,从而从3D结构中预测PLA。大量的实验表明,EHIGN在PLA预测和基于结构的虚拟筛选(SBVS)方面比其他最先进的基于ML的baseline具有更好的泛化能力。更重要的是,对距离亲和关系、姿态亲和关系和子结构亲和关系的综合分析表明,基于相互作用的归纳偏差可以指导模型学习与物理现实一致的原子相互作用。作为一个实用性的研究,EHIGN被用于预测Nirmatrelvir对SARS-CoV-2变体的疗效。EHIGN成功识别了Nirmatrelvir对不同SARS-CoV-2变体疗效的变化。

来自:Interaction-Based Inductive Bias in Graph Neural Networks: Enhancing Protein-Ligand Binding Affinity Predictions from 3D Structures

背景概述

预测PLA仍然是计算化学的困难挑战之一[1]。该领域的快速发展可以通过更有效地识别潜在药物直接促进药物发现。虽然基于物理的方法,如分子动力学和量子力学,可以非常准确地预测PLA[2],但它们的大量计算需求阻碍了高通量筛选的应用。另一方面,分子对接由于其可管理的计算成本,已广泛应用于大规模基于结构的虚拟筛选(SBVS)[3]。然而,由于减少计算需求的权衡,分子对接的准确性不可避免地受到损害。

由于越来越多的高质量、实验确定的蛋白质配体结构及其相应的结合亲和力数据增长,现在可以采用数据驱动的方法来预测PLA。用于预测PLA的ML方法可分为两类:无相互作用和基于相互作用的方法。这种分类基于这些方法是否利用原子相互作用和3D结构,如图1所示。
fig1

  • 图1:基于相互作用的方法和不基于相互作用的方法。

无相互作用方法[6][10][11]隐含地假设ML模型可以从不显示物理上有意义的蛋白质-配体相互作用的数据中学习。因此,配体通常由其扩展连接指纹ECFP、SMILES序列或2D graph来表示,而蛋白质则由序列来描述。为了简单起见,有意省略了原子交互。对于这类模型,可以通过识别数据中与结合亲和力相关但可能缺乏直接生化相关性的模式来实现良好的预测,这种模式被称为非因果偏差(有相关性但没有因果关系)[12]。

另一方面,基于相互作用的模型[21][22][23]考虑了原子相互作用和3D结构,将蛋白质-配体复合物表示为3D相互作用graph或3D grids。这些模型的归纳偏差,无论是显性的还是隐性的,都与蛋白质和配体之间的物理相互作用密切相关。在基于相互作用的模型中,最常用的是3D-CNNs[15]和交互图神经网络IGNNs[13]。值得注意的是,最近的研究表明,IGNNs在预测性能和计算效率方面都超过了3D-CNN[17]。

虽然IGNNs在PLA预测中显示出相当大的潜力,但由于泛化能力和可解释性不足,其实际应用仍然受到限制[1]。当前基于IGNNs的模型存在三个关键挑战:

  • 许多IGNNs使用同质图表示[1][24][25],其中配体和蛋白质原子/键都被视为相同类型的节点/边。这忽略了一个事实,即对于给定的配体原子,非共价相互作用的数量远远超过共价相互作用的数量,从而导致在消息传递过程中可能丢失共价相互作用信息,如图2a所示。
  • 许多IGNNs使用bottleneck结构[1][13][18][22],如图2 b所示,将整个输入图封装为具有高度抽象语义的固定大小的向量。这可能导致3D结构信息的丢失。
  • 一些模型,如PIGNet[16]和PairScore[27],试图预测成对原子-原子亲和力,并将总的结合亲和力视为结果。虽然它们保留了结构性信息,但它们很容易受到interaction hidden bias的影响。这种偏差主要是由于对原子对的求和运算造成的。每个原子-原子对预测都有一个误差,导致所有原子对的总亲和度累积误差。

fig2

  • 图2:EHIGN的动机与设计。a.在同构图中,节点在消息传递过程中主要从非共价交互中接收消息。b.由于bottleneck结构,IGNNs经常丢失3D结构信息。c.EHIGN引入了四种类型的相互作用。d.提出的EHIGN的管道,其中输入是具有四种交互类型的异构图。HIGN用于从四种类型的交互中学习3D interaction-informed 节点嵌入。最后,从成对节点表示中预测原子-原子亲和力,并将结合亲和视为这些原子-原子亲和的总和。其中包含一个可学习的偏差校正项来抵消相互作用的隐藏偏差。

fig3

  • 图3:一个单层HIGN的例子。它使用四个IGNN(包括两个CIGConvs和两个NIGConvs)处理具有四种不同类型相互作用的异构图。每个节点的感受野可以通过多层叠加来扩展。

为了克服这些挑战,作者提出了基于交互的归纳偏差,并提出了两个关键假设:

  • 1.如图2c所示,复合物更准确地表达为具有共价和非共价相互作用的异质图(区分配体和蛋白质原子/键);
  • 2.预测的结合亲和力是由非共价相互作用确定的成对原子-原子亲和之和。这种归纳偏差体现在一个可解释的异构交互图神经网络EHIGN中,见图2d。

这种基于interaction的归纳偏差有两个优点:首先,它通过强制基于交互的规则将神经网络限制为与binding相关的功能,进而确保模型可以推广到显示类似物理交互的未见过的数据。因此,这种归纳偏差有助于学习符合物理现实的原子相互作用,增强模型的泛化和可解释性。EHIGN有如下贡献:

  • EHIGN将复合体建模为异质图,区分了四种类型的相互作用:配体分子内、蛋白质分子内、配体-蛋白质分子间和蛋白质-配体分子间相互作用,见图2c。
  • EHIGN采用异构交互图神经网络(HIGN,heterogeneous interaction graph neural network),由两个共价交互图网络(CIGConvs,covalent interaction GCNs)和两个非共价交互图网络(NIGConvs,non-covalent interaction GCNs)组成。并从四种类型的交互中独立学习节点表示,见图3。这规避了共价交互信息被淹没的问题。
  • EHIGN将预测的结合亲合力视为原子间亲合力之和,见图2d。这种方法保留了结构信息,并具有优越的可解释性,解决了IGNNs的瓶颈结构。
  • EHIGN采用了可学习的偏差校正项来抵消每个原子级交互引起的偏差,见图2d,提高了泛化能力。

方法

使用不同类型的符号来区分各种数学对象:小写斜体字母,例如 v v v表示标量和元素,小写黑体字母,例如 h \textbf{h} h表示特征向量,大写黑体字母,例如 W \textbf{W} W表示矩阵,大写字母,例如 G G G表示集合,斜体字母,例如 f ( ⋅ ) f(·) f()用于表示函数。

具有共价和非共价相互作用的异质图

在这项工作中,复合物被表示为具有两种节点和四种边的异构图,如图2c所示。配体和蛋白质原子分别作为异构图的配体节点和蛋白质节点,而配体分子内、蛋白质分子内、配体-蛋白质分子间和蛋白质-配体分子间相互作用构成异构图的四种边。异构图被定义为 G = ( V , E ) G=(V,E) G=(V,E),节点映射函数 τ : V → A \tau:V\rightarrow A τ:VA,边映射函数 ϕ : E → R \phi:E\rightarrow R ϕ:ER,其中, A A A R R R代表预定义的节点类型和边类型,每个节点 v ∈ V v\in V vV属于特定节点类型 τ ( v ) ∈ A \tau(v)\in A τ(v)A,每个边 e ∈ E e\in E eE属于特定节点类型 ϕ ( e ) ∈ R \phi(e)\in R ϕ(e)R。在当前应用中,定义 A A A R R R A = { l , p } A=\left\{l,p\right\} A={ l,p} R = { ( l , l ) , ( p , p ) , ( l , p ) , ( p , l ) } R=\left\{(l,l),(p,p),(l,p),(p,l)\right\} R={ (l,l),(p,p),(l,p),(p,l)},其中 l l l p p p分别是配体和蛋白质原子。对于非共价相互作用,两个节点的空间距离小于5A则可以连接非共价相互作用边。每个节点和边还携带自己的初始特征向量 x i ∈ R n \textbf{x}_{i}\in\mathbb{R}^{n} xiRn x i j ∈ R n \textbf{x}_{ij}\in\mathbb{R}^{n} xijRn,特征向量由原子特性,边特性来初始化。其次,空间信息(欧氏距离)被编码到 x i j \textbf{x}_{ij} xij中,使得EHIGN可以通过消息传递学习3D信息。

figs1

  • 图S1: x j i \textbf{x}_{ji} xji x i j \textbf{x}_{ij} xij的几何特性。具体来说, x j i \textbf{x}_{ji} xji代表了从节点 j j j及其相邻节点计算得到的几何特征, x i j x_{ij} xij代表了基于节点 i i i及其邻节点计算得到的数据。使用11个特征包括max(Distances),sum(Distances),mean(Distances),max(Angles),sum(Angles),mean(Angles),max(Areas),sum(Areas),mean(Areas), ∣ ∣ p i − p j ∣ ∣ 1 \vert\vert p_{i}-p_{j}\vert\vert_{1} ∣∣pipj1 ∣ ∣ p i − p j ∣ ∣ 2 \vert\vert p_{i}-p_{j}\vert\vert_{2} ∣∣pipj2,因此, x j i ≠ x i j \textbf{x}_{ji}\neq\textbf{x}_{ij} xji=xij

异构交互图神经网络

通过消息传递学习3D interaction-informed节点嵌入

GNN模型利用节点/边特征信息和图结构来学习每个节点 v i ∈ V v_i∈V viV的表示向量 h i \textbf{h}_i hi。具体来说,GNN模型使用消息传递函数,通过聚合来自相邻节点和边缘的消息来迭代更新节点的表示,按照: m i ( t + 1 ) = g ϕ ( t ) ( h i ( t )

  • 27
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【资源说明】 基于LSTM和注意力机制预测蛋白质-配体结合亲和力python源码+数据集+注释.zip 基于LSTM和注意力机制预测蛋白质-配体结合亲和力python源码+数据集+注释.zip 基于LSTM和注意力机制预测蛋白质-配体结合亲和力python源码+数据集+注释.zip基于LSTM和注意力机制预测蛋白质-配体结合亲和力python源码+数据集+注释.zip基于LSTM和注意力机制预测蛋白质-配体结合亲和力python源码+数据集+注释.zip基于LSTM和注意力机制预测蛋白质-配体结合亲和力python源码+数据集+注释.zip基于LSTM和注意力机制预测蛋白质-配体结合亲和力python源码+数据集+注释.zip基于LSTM和注意力机制预测蛋白质-配体结合亲和力python源码+数据集+注释.zip基于LSTM和注意力机制预测蛋白质-配体结合亲和力python源码+数据集+注释.zip 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值