【文献阅读】DoubleSG-DTA: 深度学习药物挖掘:关于携带EGFR T790M突变的非小细胞肺癌的案例研究

英文题名

DoubleSG-DTA: Deep Learning for Drug Discovery: Case Study on the Non-Small Cell Lung Cancer with EGFR T790M Mutation

中文题名

DoubleSG-DTA: 深度学习药物挖掘:关于携带EGFR T790M突变的非小细胞肺癌的案例研究

发布时间

2023年2月16日

期刊

Pharmaceutics(JCR=Q1)

影响因子

IF=6.52

作者单位

中山大学中山医学院药理学教研室

今天介绍一篇通过深度学习方法预测药物分子-靶标蛋白亲和力,从天然产物中筛选药物。文章思路很清晰,不仅详细介绍了深度学习模型的搭建模块,另外还以EGFR T790M突变的非小细胞肺癌为案例支撑出发点和切题。


【摘要】药物靶向治疗是治疗肿瘤的一种很有前途的方法,通过受体-配体相互作用来发现高亲和力靶向药物的研究一直在加速药物的开发。本研究提出了一种机制驱动的基于深度学习的计算模型,用于学习药物和蛋白质双序列,以及药物图来预测药物-靶点亲和力(DTAs),该模型被称为DoubleSG-DTA。我们部署了轻量级图同构网络来聚合药物图表示并区分分子结构,并堆叠多层挤压-激励网络来选择性地增强药物和蛋白质序列的空间特征。构建了交叉多头关注,进一步模拟了非共价分子对接行为。在不同数据集上的多次交叉验证实验评估表明,DoubleSG-DTA的表现始终优于所有先前报道的工作。为了展示DoubleSG-DTA的价值,我们将其应用于从天然产物中生成具有EGFRT790M突变的非小细胞肺癌靶向化合物,结果与报道的实验室研究一致。随后,我们进一步研究了基于图的“黑盒”模型的可解释性,并强调了贡献最大的活动结构。因此,DoubleSG-DTA提供了一个强大的、可解释的框架,可以推断潜在的化学物质来调节对疾病的系统反应。

【临床意义】临床获得性耐药是小分子激酶抑制剂治疗肿瘤[1]不可逾越的困境。然而,在广阔的化学空间中定位具有高亲和力和良好性能的靶蛋白小分子配体一直是药物研发(R&D)的主要挑战。迄今为止,将美国食品药品监督管理局(FDA)批准的用于克服蛋白激酶“看门人”突变驱动的临床耐药性的激酶药物形容为“沙漠绿洲”也不为过。肺癌是全球癌症相关死亡的主要原因,其中非小细胞肺癌(NSCLC)是最常见的肺癌类型。苏氨酸790 (T790M)继发性表皮生长因子受体(EGFR)突变导致获得性耐药,严重影响患者预后。因此,克服耐药的策略或药物是延长NSCLC患者生存的迫切需要。

【模型创新点】作者考虑到目前的预测亲和力的方法很难推广到现实世界的问题。首先,分子相似原理[26]指出,具有相似结构的分子通常具有相似的生物活性和物理化学性质;相反,有显著的差异。因此,该模型必须在广阔的化学空间内区分分子结构。此外,化合物和蛋白质之间复杂的映射模式的建模简单地连接,这偏离了受体和配体之间的非共价相互作用。更重要的是,由于图神经网络的“黑箱”特性,这些方法的可解释性有限。考虑到二元分类任务产生的假阳性统计量直接影响模型的鲁棒性,这里将预测DTA视为一个回归问题。为了解决上述问题,我们提出了一种基于gin和多重注意机制的三通道DoubleSG-DTA理论框架,在各种基准数据集上显著优于其他基于回归的SOTA方法。随后,我们将药学2023,15,675 3 / 17的原子贡献梯度可视化,并将其与分子对接姿势进行比较,以进一步扩展基于图的模型的可解释性。

本文主要贡献如下:

•DoubleSG-DTA结合图同构网络和挤压-激励网络并行提取药物的多模态(序列和图)表示,旨在增强模型对化合物结构的区分能力,选择性抑制冗余信息干扰模型决策。

•交叉多头注意机制的设计,分别模拟基于现实的药物亚结构和子序列与靶蛋白的非共价分子对接行为;

•应用DoubleSG-DTA从天然产物中筛选含有EGFRT790M突变的NSCLC有希望的命中化合物,这与报道的实验室研究一致。

【模型框架】本文开发了用于DTA预测的具有三通道多模态表示、四通道交互、一通道输出的DoubleSG-DTA模型,该模型部署了多层gin和多个注意块,如图1所示。首先,我们将药物图和SMILES作为药物表示学习模型的输入。多层GINs[22]和挤压激励网络(SENets)[27]联合用作药物的特征提取器。此外,蛋白质表示学习模型捕获了高度依赖于堆叠senet的过度冗余蛋白质序列的主要特征。此外,为了进一步编码药-靶相互作用信息,我们设计了交叉多头注意力,分别模拟药物亚结构及其子序列与靶蛋白基于现实的非共价分子对接行为。最后,我们将注意力系数解耦到多层感知器(MLPs)中来预测DTA。本节依次介绍框架的构建块。

【模型架构图】

【词向量和图编码】最初,我们利用高维词嵌入对药物和蛋白质序列进行唯一编码。为此,我们建立了药物SMILES和蛋白质FASTA序列的标签/整数字典,分别由64个和22个键值对组成。例如,根据SMILES字典{' C ':22, ' N ':34, ' O ':33, '(':4, ') ':3}和蛋白质字典{' A ':1, ' N ':14, ' C ':2, ' Q ':15, ' I ':8, ' V ':22, ' W ':21},丙二醇" CC(O)CO "的SMILES和EGFRT790M[28]蛋白子序列" NWCVQIA "被编码为[22 22 4 33 3 1 22 33]和[14 21 21 2 22 15 8 1]。然后通过嵌入层将每个整数向量映射为词嵌入De∈Rld×le和Pe∈Rlp×le。其中ld和lp表示SMILES和蛋白FASTA序列的大小,le表示包埋尺寸。我们将smile转换为它们对应的分子图G = (V, E),并通过RDKit[29]提取原子特征,其中E和V分别为边集和原子集。药物中的每个原子节点由10个分子描述符的多维向量表示(原子符号、原子数、杂化、相邻原子数、手性、形式电荷、芳香性、键合氢数以及显价和隐价)。

【药物与蛋白质序列表示学习模型】

cnn通过融合特征之间的空间相关性来构建文本特征,这些特征受益于卷积核的局部接受域,但同样受到它的限制。在计算机视觉中,将具有通道注意力的挤压-激励(SE)块集成到现有架构中,通过显式地建模通道[27]之间的非互斥关系,自适应地重新调整通道特征权重。

研究证实SENets在稍微增加计算成本[27]的情况下,取得了较好的图像分类性能。因此,我们堆叠了多层senet,旨在选择性地增强有效统计数据并抑制干扰模型决策的噪声。设U∈RH×W×C为卷积层输出的特征矩阵,我们将其路由到SE块,其中U = [u1, u2,…],加州大学]。

SE模块使用挤压、激励和重加权算子。挤压算子本质上是为了变换特征矩阵U的维数,通过应用全局平均池化操作得到通道统计量z∈RC。

【药物图表示学习模型】

药物分子是由具有丰富语义信息和复杂空间结构的实体(原子)和关系(键)组成的非欧几里得化学结构。这对于准确区分药物分子和准确预测不同化合物分子与蛋白质的结合亲和力至关重要。然而,这超出了传统gnn的能力范围。

同时,我们考虑到具有相似亚结构的药物可能与具有相同或相似蛋白结合袋的靶蛋白发生药理反应。

有趣的是,具有注入性的图同构网络[22]广泛地遵循一种灵活的消息传递方案,该方案使原子能够通过聚集远近相邻的原子特征递归地更新语义信息。足够的迭代次数使GIN完美地配备了最强大的“读出”药物图表示和识别药物分子的能力。

GIN通过mlp更新原子特征向量,确保GIN在k次迭代聚合后仍然满足注入性。通过将药物中所有原子特征向量相加得到图表示。形式上,GINs的核函数更新原子特征向量Dkv,药物图表示DGI N为:

【药物分子与T靶蛋白相互作用模型】

药物分子与靶蛋白的结合实际上是一种类似于“锁与钥匙”模型的识别关系。受之前基于注意力的方法[13,17,30]的启发,我们构建了两个交叉多头注意力模块,以模拟化合物和蛋白质之间的非共价分子对接行为,而不是简单地连接药物和蛋白质表征,从而产生更多侵入性信息。具体地说,我们从多个独立的角度观察了分子的亚结构、子序列和残基之间的关联。交叉多头注意块分别以SENets的药物和蛋白质序列特征矩阵DSENet∈Rld×lc和PSENet∈Rlp×lc, GIN的药物图级表示DGI N∈Rld×lg作为输入。

在下面的段落中,我们构建了可学习的线性过渡层,以便每个头部都可以从高维特征中充分学习。然后,采用跨多头注意机制,将DSENet、DGI N与PSENet相结合。

【药物与T靶蛋白结合亲和力预测】

最后,将相互作用信息Idp直接输入MLPs,绘制药物-靶点亲和评分。在这里,这个mlp由四层组成,每一层后面都有一个ReLU和dropout层,用于缓解模型的过拟合。

【Benchmark Datasets】

【评价指标】

为了确保一致性和公平的比较,我们应用了一致性指数(CI,↑)、均方误差(MSE,↓)和向均值回归(r2m指数,↑)作为先前研究[8,11,13]的性能指标来评估模型。

MSE: MSE度量通常用于测量ground truth与预测值之间的差异,最小化MSE是主要的训练目标。

CI:引入CI度量来度量基本事实与预测值之间一致性的概率。CI值在0.50到1.0之间,小于0.7表示模型预测不可信,0.71到0.90表示预测精度中等,超过0.9表示预测可靠。

r2m: r2m指标被广泛用于评估基于回归的模型的外部预测性能,可接受的模型的r2m值大于0.5。

更重要的是,使用Pearson相关系数来衡量实际值与预测值之间的线性相关性。Pearson相关系数的计算公式如下。

实验采用NVIDIA RTX A5000GPU进行。我们采用五重交叉验证的方法来评价先前报道的工作质量和DoubleSG-DTA模型,表2给出了实验中的超参数设置。

【基线模型】

在本部分中,我们使用MSE(↓)、CI(↑)、r2m(↑)进行实验,评估DoubleSG-DTA方法和前人对上述三个基准数据集(DeepDTA[8]、GraphDTA[11]、MATT-DTI[13]、AttentionDTA[16]、DeepCDA[17]、DMIL-PPDTA[18])的研究。此外,我们还对蛋白质化学计量学方法[35]进行了基准测试,包括支持向量机(SVM)、前馈神经网络(FNN)、SimBoost[12]、随机森林(RF)[14]和KronRLS[15]。

【与回归的基线模型比较】

表3-5总结了DoubeSG-DTA和之前研究过的模型在基准数据集上的量化结果。显然,DoubleSG-DTA在各种数据集上的表现明显优于其他基于回归的方法。

考虑到Davis数据集,在基于序列的模型中,DoubleSG-DTA模型的MSE指标为0.219,比最佳DMIL-PPDTA[18]模型低0.004;在基于序列的模型中,我们模型的CI和r2m指标分别比FNN[20]模型高0.902和0.725,0.009和0.04。与基于图的模型中最好的GraphDTA[11]模型相比,CI值提高了0.009,MSE值降低了4.37%。

考虑到KIBA数据集,DoubleSG-DTA模型的MSE和r2m指标分别为0.138和0.787,分别比基于序列模型的最佳DMIL-PPDTA[18]模型低6.12%和高0.003,我们的模型的CI指标分别比基于序列模型的MATT-DTI[13]模型高0.896和0.007。与基于图的模型中最好的GraphDTA[11]模型相比,CI值提高了0.005,MSE值降低了0.001。

在BindingDB数据集上,DoubleSG-DTA模型的MSE指标为0.533,比基于序列的模型中最佳的AttentionDTA[16]模型低11.61%,CI和r2m指标分别为0.862和0.726,分别比其高0.01和0.039。与基于图的最佳GraphDTA[11]模型相比,CI和r2m指标分别提高了0.005和0.023,MSE指标降低了4.31%。

图2显示了在KIBA、Davis和BindingDB数据集中,预测值和真实值显示了近似重叠的分布趋势。此外,使用皮尔逊相关使我们能够对MSE优化的DoubleSGDTA进行无偏评估。特别是,我们的模型在三个基准数据集中分别获得了更好的Pearson相关性0.852,0.894和0.867。

这些结果表明,强大的图同构网络,加上轻量级的挤压和激励网络,使DoubleSG-DTA在跨多头注意力的支持下表现异常出色。

【消融研究1:图同构网络层对模型性能的影响】

药物表征提取高度依赖于GIN的图计算能力。我们进行了一个消融实验来研究图同构网络深度对预测性能的贡献。从图3可以看出,当GIN层数L∈{4,5}时,DoubleSG-DTA的性能优于其他所有设置,并且随着GIN层数的增加,DoubleSG-DTA模型的CI和r2m指标趋于减小,DoubleSGDTA训练主要目标的MSE指标急剧增加。GIN对其自身特征和远近相邻节点特征进行加权平均,以更新节点的新特征,目的是捕获图表示并区分图结构。但是,无限增加层数会导致同一簇内节点的特征向量逐渐收敛到相似,这可能导致节点顺平滑,影响模型决策性能[36]。因此,适当的GIN深度有利于获得药物图表示,而堆叠一组GIN层可能会导致过度平滑和梯度消失的问题。

【消融研究2:硒块对模型性能的影响】

这项工作放弃了以往研究中使用的cnn[8,13,16,17]作为特征提取器,而是创建多层挤压-激励网络来构建药物和氨基酸序列的文本特征,并与基于cnn的方法进行了比较。如表6所示,虽然DoubleSG-DTA模型中嵌入了具有通道注意的多层SE模块,导致模型参数上升,模型复杂度提高,但在三个基准数据集上,模型的训练时间并没有显著增加。因此,对照实验表明,与没有SENet块的模型(DoubleSG-DTA + CNN)相比,带有SENet块的DoubleSG-DTA模型(DoubleSG-DTA + SENet)在略微增加计算量的情况下取得了相当大的改进。总的来说,我们的研究结果表明senet显著降低了模型的错误率,这得益于通道间的注意。

【消融研究3:交叉多头注意机制的交互学习】

最后,本研究研究了交叉多头注意力机制对药物分子与靶蛋白基于现实的分子对接行为建模的影响,并将其与两者连接的方法进行了比较。如表7所示,在Davis、KIBA和BindingDB数据集中,具有交叉多头关注的DoubleSG-DTA模型的MSE指数分别比后者下降了9.50%、10.39%和3.79%。r2m指数分别增加了0.012、0.014和0.024。总体而言,使用跨多头注意机制后,完整的DoubleSG-DTA模型有了更可观的改进。

【EGFR T790M突变非小细胞肺癌病例研究】

根据2021年[37]年癌症数据统计,肺癌死亡率上升至总癌症死亡率的46%左右,其中NSCLC约占肺部恶性肿瘤的85%。NSCLC患者通常伴有表皮生长因子受体(epidermal growth factor receptor, EGFR)突变[38],这给NSCLC的治疗带来了很大的挑战。近年来,小分子EGFR酪氨酸激酶抑制剂(EGFR- tkis)在靶向治疗方面取得了显著成就,为NSCLC患者带来了曙光。与铂类化疗相比,第一代EGFR-TKIs(吉非替尼和厄洛替尼)和第二代EGFR-TKI(阿法替尼)显著改善晚期NSCLC患者的预后。不幸的是,大多数患者出现EGFRT790M突变,导致严重的耐药症状[39]。尽管第三代EGFR-TKI (Osimertinib)靶向EGFRT790M突变的NSCLC具有高选择性,但不可避免地,患者会出现继发性耐药[40]。

天然产物仍然是药物研发中具有结构复杂性和众多药效团的模板的宝贵来源,特别是对癌症有效。例如,紫杉醇[41]和长春新碱[42]已被广泛投入临床治疗肿瘤。在本节中,我们倾向于从天然产物中筛选出高亲和力、性能好的EGFRT790M突变NSCLC靶向抑制剂。

我们希望我们的研究结果可以为医学科学家开发高选择性天然药物提供线索。

为此,我们从蛋白质数据库[43]中获得了突变蛋白EGFRT790M (PDB ID:2JIT[28])的FASTA序列,并从Selleck Chemicals https://www.selleck.cn/(访问于2023年1月4日)收集了2645个天然化合物,这些化合物易于优化,具有良好的人类口服生物利用度(OB > 40%)和药物相似性(DL > 0.18)[44,45]。表8提供了DoubleSG-DTA预测的前10种天然产物的信息,这些产物对EGFRT790M突变蛋白具有最高的亲和力。

然后,我们对排名前十的天然产品进行了全面的文献调查。

根据[46]的研究,棉酚不仅能显著提高携带EGFRL858R/T790M的H1975细胞对EGFRTKIs的敏感性,还能抑制细胞增殖,诱导细胞凋亡。Gö6976来源于Staurosporine,实验证实Gö6976(500纳摩尔)对EGFRT790M突变体具有显著的结合亲和力,而对野生型EGFR[47]具有明显较低的亲和力。研究结果表明紫草素对携带EGFRT790M突变的吉非替尼耐药NSCLC细胞株具有选择性的细胞毒作用,而对正常肺细胞[48]相对安全。棉酚乙酸显著增强携带EGFRL858R/T790M突变的肺癌细胞对吉非替尼的敏感性,并克服EGFR-TKIs耐药性[49,50]。根据上述报告,这些天然产物可能是对抗EGFRT790M突变NSCLC耐药的有前途的策略。

【分子对接与生物学解释】

为了进一步验证这种新的交互,通过AutoDock[51]执行计算对接。如图4所示,我们采用Autodock中最高效、最可靠、最成功的拉markkian遗传算法,对最低能量配体-受体对接构象进行自适应全局局部搜索,并通过经验结合自由能力场[52]预测结合自由能。配体-受体结合能包括静电相互作用、氢键、范德华力和疏水相互作用等,结构稳定性与结合能值呈负相关。此外,得到了一种可接受的分子对接构象,其结合能小于−5.0208 KJ/mol。药物分子配体以上述方式与靶蛋白稳定相互作用,旨在发挥药物分子的抗炎、抗肿瘤等多种生物活性,并刺激蛋白质的生理和药理功能。如图4和表8所示,对接结果表明,前10个天然化合物可以通过产生多个氢键与EGFR T790M蛋白稳定对接。

图神经网络一直因其较差的可解释性而受到批评,这些模型通常被认为是“黑盒”。在这项工作中,受Grad-AAM[20]和Grad-CAM[53]的启发,采用梯度加权类激活映射方法,将对预测结果贡献最大的图结构区域可视化为热图,增强了基于深度学习的网络模型处理图数据的可解释性。

由于DoubleSG-DTA的GINs的最后一层包含了最丰富的高级语义信息,因此将药物图表示可视化,以生成描述对预测DTA贡献最大的原子和官能团的热图。我们将最后一个图卷积层的特征图表示为F。为了得到给定药物分子的原子节点v的概率图P,我们计算了在特征图F和原子节点v的第c通道上分子与目标蛋白结合的预测亲和力DTA的梯度,梯度Wc的计算如下。

接下来,对特征图F的每个通道的数据进行加权组合,然后进行ReLU激活函数。

最后,利用最小-最大归一化方法将梯度权重缩放到0 - 1范围,得到药物分子加权分布的概率图P,并进一步绘制为热图。

如图4所示,热图中活性结构与分子对接位点重叠超过77.14%,数学计算公式如式(23)所示。从图4可以看出,将药物分子描述为图形,通过适当深度的GIN学习药物分子的拓扑模式结构,可以准确区分药物分子活性结构。

【总结】

本研究提出了一个可解释的基于深度学习的计算模型来预测药物-靶对的亲和力,以帮助药物发现。实验结果表明,简单而强大的图同构网络与轻量级挤压激励网络相结合,使DoubleSG-DTA在跨多头注意支持下的性能比以往所有报道的工作都要出色。大量实验表明:(i)提取药物图表示和区分分子结构最合适的图同构网络层数为{4,5},(ii)具有软注意机制的SE块通过扩大感知场选择性地强调信息特征,显著提高了模型的决策能力;(iii)完全模拟化合物和蛋白质之间的相互作用,有助于进一步预测药物-靶点结合亲和力。最终,应用已建立的DoubleSG-DTA从天然产物中筛选EGFRT790M突变的非小细胞肺癌有希望的高亲和力化合物,为医学科学家提供一些线索。

此外,将药物图表示可视化为热图,其中贡献最大的活性结构几乎覆盖了所有的分子对接位点,这可能为后续的分子优化提供生物学解释和切入点。总体而言,DoubleSG-DTA可能是应对医疗挑战和紧急公共卫生突发事件的有效硅基药物发现工具。

DOI: 10.3390/pharmaceutics15020675. PMID: 36839996; PMCID: PMC9965659.

代码链接:The source code at https://github.com/YongtaoQian/DoubleSG-DTA

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值