论文解读:《FusionDTA:基于注意力的特征融合和知识净化用于药物-靶点结合亲和力预测》

文章地址:https://academic.oup.com/bib/article-abstract/23/1/bbab506/6470967?login=true
DOI:https://doi.org/10.1093/bib/bbab506
期刊:BRIEFINGS IN BIOINFORMATICS
2021年影响因子/JCR分区:13.994/Q1
出版日期:2021年12月21日
代码及数据:https://github.com/yuanweining/FusionDTA

1.文章概述

药物靶点亲和力(drug-target affinity,DTA)的预测在药物发现中发挥着越来越重要的作用。如今,许多预测方法都集中在药物和蛋白质的特征编码上,而忽略了特征聚合的重要性。然而,越来越复杂的编码器网络会导致隐含信息的丢失或模型尺寸过大。为此,作者提出了一种基于深度学习的方法,即 FusionDTA。对于隐含信息的丢失,使用一种新颖的多头线性注意机制来代替粗糙的池化方法。这允许 FusionDTA 基于注意力权重聚合全局信息,而不是像 max pooling 那样选择最大的一个。为了解决参数的冗余问题,通过将可学习信息从教师模型转移到学生模型,在 FusionDTA 中应用知识蒸馏。结果表明,FusionDTA 在所有评估指标上的测试域性能都优于现有模型。在 Davis 和 KIBA 数据集中分别获得了 0.913 和 0.906 的一致性指数 (concordance index,CI) 指数,而之前的最先进模型为 0.893 和 0.891。在冷启动(cold-start )约束下,所提出的模型被证明比基线方法更稳健,更有效地处理看不见的输入。此外,知识蒸馏确实节省了模型一半的参数,CI指数仅降低了0.006。即使是具有一半参数的 FusionDTA 也很容易在所有指标上超过基线。总的来说,作者所提出的模型具有卓越的性能并提高了药物-靶标相互作用 (DTI) 预测的效果。在基于结构的药物设计过程中,DTI 的可视化可以有效地帮助预测蛋白质的结合区域。

2.背景

药物发现是一个耗时、极其昂贵和赌博的过程。新药研发耗时 10 多年,耗资数十亿美元,但进入临床试验的 90% 的药物尚未获得 FDA 批准,进入消费市场。在过去的几十年里,计算机技术的飞速发展使得更好的药物设计能够辅助药物设计进行实验,加快药物开发的速度。如今,计算机辅助药物设计的关键部分是寻找匹配的药物分子和蛋白质。因此,药物-靶点相互作用(DTI)已成为被广泛研究的热门话题。
传统上,虚拟筛选已被广泛用于从大型化合物数据库中提取合理的药物分子。然而,用于测量药物与靶标之间结合亲和力的分子对接技术在实验中花费了大量时间。对于结构信息已知的蛋白质,可以直接对接药物分子,获得结合亲和力。但仍有许多结构未知的蛋白质。即使在同源建模上花费了大量时间,也可能无法获得详细的结构信息。为了应对这一挑战,用于药物-靶标亲和力(DTA)预测的机器学习方法已逐渐成为分子对接的替代方案。
Pahikkala 等人提出了 Kronecker 正则化最小二乘法 (KronRLS),该方法通过相似矩阵的 Kronecker 积来定义药物-靶标对的相似度得分。He 等人提出了 Simboost,这是一种使用梯度增强器来预测药物-靶标亲和力的交叉方法。 Öztürk 等人提出了一种深度学习模型 DeepDTA,它具有两个独立的卷积块,用于从 SMILES 字符串和蛋白质序列中学习表示。 Abbasi 等人提出了一种基于深度学习的方法 DeepCDA,它结合了卷积层和长短期记忆(LSTM)层有效地编码局部和全局时间模式,用于深度跨域复合蛋白质亲和力预测。 Nguyen 等人提出了一种基于图的模型 GraphDTA,将药物编码为具有特征图和相邻矩阵的无向图,应用图卷积网络 (GCN) 、图注意力网络 (GAT) 和图同构网络 (GIN) 旨在从药物中提取特征,而卷积块是蛋白质的特征编码器。
对于输入向量的预训练,Asgari 和 Mofrad 提出了 word2vec 模型蛋白质载体(Protvec)来获得蛋白质的连续分布表示。Rao 等人介绍了评估蛋白质嵌入(TAPE)的任务来评估蛋白质序列的半监督学习。在他们的研究中,自监督模型应该在三个主流任务上进行测试:结构预测、远程同源物检测和蛋白质工程。此外,Rives 等人通过强大的转换器 ESM-1b 从 2.5 亿个蛋白质的 860 亿个氨基酸中学习了多尺度表示空间。在现有工作中,一维 CNN 和池化方法经常用于将 n 个单词的序列压缩为单个表征。但是,每个表征都包含唯一的语义信息。只是使用 1D CNN 层或全局池化操作来聚合特征可能会导致大量有用信息的丢失。
为了解决这个问题,作者提出了一种新颖的神经网络框架:FusionDTA。在模型架构中,首先根据原始输入和预训练模型的参数将输入编码为连续分布的表示。对于生物序列,one-hot 编码无法从大量无监督的生物语料库中获取上下文信息。因此,使用预训练的 transformer 来生成分布式输入表示。然后,LSTM 层构成了编码器网络的基本块。为了捕获特征向量的局部和全局依赖关系,在嵌入层的特征图上应用两层双向 LSTM。最后,用多头线性注意力层替换 1D CNN 层或全局池化层,该层选择性地关注整个生物序列中的每个标记,并根据注意力得分聚合全局信息。与上面提到的注意力机制不同,提出的线性注意力机制旨在捕获每个生物标记对结合亲和力的直接反映,而不是增强特征编码器的表示能力。
随着神经网络编码器的深入,经常会面临训练过程中参数过多的现象。这种现象总是伴随着过拟合和训练缓慢的问题。因此,作者建议将 DTA 任务的知识蒸馏作为训练策略的改进。知识蒸馏建立了教师模型和学生模型。通过定义约束和损失函数,参数较少的学生模型从参数较多的教师模型中获取知识。通过将知识从一个模型转移到另一个模型,知识蒸馏是参数正则化和模型压缩的有效方法。

3.数据

作者在两个公开可用的数据集上评估了 FusionDTA,激酶数据集 Davis 【Comprehensive analysis of kinase inhibitor selectivity】和 KIBA 数据集【Making sense of large-scale kinase inhibitor bioactivity data sets: a comparative and integrative analysis】。两者都被视为先前药物-靶标亲和力预测中的基准数据集。

  • Davis 数据集:包含来自 442 个蛋白质和 68 个配体的 30 056 个相互作用,其中结合亲和力通过 (Kd) 值评估。它反映了激酶蛋白家族和相关抑制剂的选择性测量及其恒定的解离值。
    Öztürk 等人提出通过将其值转换为对数域来用一种新的度量 pKd 替换结合亲和力值 Kd。计算公式为:
    在这里插入图片描述
    在这里插入图片描述图 2 显示了 Davis 数据集中的亲和力、药物长度和蛋白质频率的直方图。第一张图说明了 Davis 数据集中 DT 对的结合亲和力值的分布。亲和力为 5 的峰占数据集的一半以上。该数据集共有 30 056 个 DT 对,其中 20 931 个 DT 对的亲和力为 5。其余大部分分布在 6 到 7 之间。此外,大多数蛋白质的长度集中在 400 到 1500 之间。最大分布在500左右,最大长度为2549。配体的SMILES长度呈现高斯分布,范围从35到80,大部分在40到60之间,最大长度为103。

  • KIBA 数据集:包含通过称为 KIBA 的方法测量的激酶抑制剂生物活性,该方法考虑了抑制剂功效的不同指标,例如 Ki、Kd 和 IC50。通过 467 个蛋白质和 52 498 个配体的相互作用来测量结合亲和力。
    在这里插入图片描述
    图 3 显示了 KIBA 数据集中的亲和力、药物长度和蛋白质频率的直方图。如图所示,KIBA数据集中的亲和度主要分布在10到13之间,大部分落在11左右。蛋白质序列长度集中在200到1500之间,大部分在700左右,而最大长度为 4128。配体的 SMILES 长度范围从15到100,大部分集中在50左右,最大长度为590。

Öztürk 等人提出,对于 99% 的蛋白质对,KIBA 数据集中蛋白质之间的 Smith-Waterman (S-W) 相似性最多为 60%。 Davis 数据集中 92% 的蛋白质对的目标相似性最高为 60%。这些统计数据表明两个数据集都是非冗余的。为保证实验的公平性,实验中采用了5折交叉验证。所有数据平均分为五部分,四部分用于训练集,一部分用于测试集。所以,一个数据集可以分为五个方案。作者在所有方案上测试了所提出的模型,并将平均分数作为最终性能。

4.方法

在这里插入图片描述
FusionDTA的整体架构如图1所示。第一步是将药物分子和蛋白质序列输入嵌入层。在这一层中,药物分子被编码为 SMILES 字符串,蛋白质被编码为词嵌入。然后,设计 LSTM 层来构建编码器层的基本块。最后,将药物分子和蛋白质的中间载体导入融合层,得到结合亲和力的输出载体表示。

4.1 模型架构

4.1.1 药物表示

SMILES:SMILES表达式是化学里面常用的用于标定元素之间关系的字符串,旨在用最简短的语句来完整的表达一个分子体系内所蕴含的基本信息,比如元素、连接性以及连接属性等。
在这里插入图片描述

4.1.2 蛋白质表示

Transformer
在这里插入图片描述在预训练阶段,首先将原始蛋白质按固定的最大长度分成几个序列。每个序列都以记号 [CLS] 开始,以记号 [SEP] 结束。然后,输入嵌入是记号嵌入和具有可学习权重的位置嵌入的总和。

4.1.3 LSTM 层

LSTM

4.1.4 多头线性注意力机制

Muti-head linear attention mechanism
在这里插入图片描述

4.1.5 融合层

Fusion

4.2 知识蒸馏

4.2.1 知识蒸馏学习

从概念上讲,定义了一个强大的网络,它已经被训练为教师模型,而可以从教师模型中学习的相同或更小规模的网络是学生模型。
在这里插入图片描述

4.2.2 DTA 任务的知识蒸馏

此外,知识蒸馏有助于抑制模型参数和过拟合。考虑到教师模型的特征图作为约束,知识蒸馏限制了教师和学生参数之间的差异。与 L2 归一化相比,损失函数 L1 允许模型学习更有效的已验证网络参数(而不是简单地为零)。

5.结果和讨论

5.1 FusionDTA的性能

在这里插入图片描述
在表 1 中,作者列出了在 Davis 数据集上评估的建议模型的性能,并将其与基线模型进行了比较。如图所示,FusionDTA 在各方面都优于现有模型。具体来说,与之前的基线模型 GraphDTA 相比,FusionDTA 将 CI 指数提高了 0.020,将 MSE 降低了 0.021。此外,与基线模型 MATT_DTI 相比,FusionDTA 的 r2m 指数也实现了 0.060 的提升。
在这里插入图片描述
表 2 展示了 FusionDTA 和基线模型在 KIBA 数据集上的性能。结果表明,在所有评估措施中,FusionDTA 也取得了明显优于基线模型的结果。与之前的最先进模型 GraphDTA 相比,FusionDTA 的 CI 指数和 MSE 分别提高了 0.015、0.009。此外,FusionDTA 的 r2m 指数也比 MATT_DTI 提高了 0.037。
在这里插入图片描述在这里插入图片描述
图 7 说明了与 Davis 和 KIBA 数据集上的预测值的真实亲和力。从每个点到 y = x 表示其预测的亲和值与实际值之间的差异。边缘的直方图代表真实和预测亲和力的整体分布。如图所示,对于 Davis 和 KIBA 数据集,样本倾向于关于 y = x 对称。KIBA 数据集中的采样点更密集地分布在 y = x 周围。

5.2 各种池化方法的性能

在这里插入图片描述

5.3 Cold-start 的性能

Cold-start问题是指在看不见的输入上评估模型性能。从应用的角度来看,大部分蛋白质或药物表示可能不会出现在训练集中。对于在一个在特定数据集中得分优异的模型,是否也能在未知数据上表现良好是一个未知数。在这方面,Cold-start的表现表明模型面对新环境(例如突变蛋白质)的鲁棒性。
在这里插入图片描述

5.4 知识蒸馏的性能

知识蒸馏是促进知识转移和参数正则化的有效方法。因此,在验证阶段设置了两个不同参数的实验,以检查知识蒸馏的各种效果。在一项实验中,学生模型的参数大小与教师模型的参数大小完全相同,旨在评估教师指导对学生模型表现的影响。在另一个实验中,使用参数只有一半大小的学生模型来评估模型压缩的能力。对于每个实验,教师模型使用冻结的预训练 FusionDTA 设置,而学生模型使用未训练的 FusionDTA 进行初始化。然后,学生模型通过知识蒸馏的训练策略,从教师的输出和真实值中学习新的分布。
在这里插入图片描述

6.具有注意力权重的可视化

在这里插入图片描述
FusionDTA得到的注意力权重可以用来分析药物小分子与靶蛋白相互作用的哪一部分在结合口袋中起关键作用。注意力机制可以计算蛋白质序列和药物化合物之间相互作用的一些关键领域。为了可视化主要的相互作用区域,首先计算了蛋白质序列的权重和药物化合物的 SMILES 特征,然后选择了注意力值相对较大的相应相互作用位点。图 8 显示了所提出模型的权重可视化示例。作者选择了 MARK3(PDB ID:3FE3)和尼罗替尼的复合物进行交互式视觉分析。结果表明,权重值主要在5.69E-4到1.43E-3之间。对药物化合物中注意力权重大于 9.80E-4 和蛋白质中注意力权重大于 9.57E-4 的位置进行着色。青色突出了结合包中蛋白质和聚焦药物原子高度聚焦的位置,颜色越深表示注意力权重越小。显然,作者所提出的模型主要捕获了主要的氨基酸区域,即残基 194-339。更值得一提的是模型在残基 194-339 中捕获的注意力权重几乎接近 9.57E-4,残基 285-287 相对较大。峰值在 L YS-285 处,恰好落在绑定口袋中,表明所提出的模型准确地预测了潜在的对接位置测量。总体而言,194-339位残基部分位于MARK3和尼罗替尼的对接口袋内,部分位于区域外,这也表明模型捕获的大部分区域位于对接界面,但也有一部分位于对接界面。捕获错误的区域。我们的模型计算的权重主要集中在结合口袋中,这表明所提出的模型可以更准确地预测蛋白质与化合物之间的相互作用。简而言之,所提出的模型可以从药物 SMILES 和蛋白质序列这两个通道中提取有用的信息。

  • 4
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值