2020 Bioinformatics | TransformerCPI

2020 Bioinformatics | TransformerCPI: Improving compound–protein interaction prediction by sequence-based deep learning with self-attention mechanism and label reversal experiments

Paper: https://academic.oup.com/bioinformatics/article/36/16/4406/5840724?login=false
Code: https://github.com/lifanchen-simm/transformerCPI

摘要

识别化合物-蛋白质相互作用(CPI)是药物发现和化学基因组学研究中的一项关键任务,而没有三维结构的蛋白质占潜在生物靶标的很大一部分,这需要开发仅使用蛋白质序列信息来预测 CPI 的方法。然而,基于序列的 CPI 模型可能会面临一些特定的缺陷,包括使用不适当的数据集、隐藏的配体偏差和不恰当地拆分数据集,从而导致对其预测性能的高估。

结果

为了解决这些问题,我们在这里构建了专门用于 CPI 预测的新数据集,提出了一种名为 TransformerCPI 的新型变压器神经网络,并引入了更严格的标签反转实验来测试模型是否学习到真正的交互特征。TransformerCPI 在新实验中取得了显着提高的性能,并且可以对它进行去卷积以突出蛋白质序列和化合物原子的重要相互作用区域,这可能有助于化学生物学研究,并为进一步的配体结构优化提供有用的指导。

目前存在的问题

  1. **使用不适当的数据集:**模型的学习主要取决于它所输入的数据集,不合适的数据集会使模型容易偏离目标。在基于化学基因组学的 CPI 建模中,建模的总体目标是基于蛋白质和配体特征的抽象表示形式来预测不同蛋白质和不同化合物之间的相互作用。其中收集了 DUD-E 数据集,旨在训练基于结构的虚拟筛选。此外,DUD-E、MUV、Human 和 BindingDB 中的大多数配体仅出现在一类中,而负样本是由可能引入无法检测到的噪声的算法生成。这些数据集可以通过配体信息分开,并且不能保证模型学习蛋白质信息或相互作用特征。
  2. 隐藏配体偏差:。基于结构的虚拟筛选、基于 3D-CNN 的模型和其他在 DUD-E 数据集上训练的模型(Sieg等人,2019 年)) 已被指出主要基于配体模式而不是相互作用特征进行预测,导致理论建模与实际应用不匹配。
  3. **不当拆分数据集:**机器学习研究人员将数据随机分成训练集和测试集。然而,在随机分割的测试集上使用传统的分类测量,不清楚模型是学习真正的交互特征还是其他意想不到的隐藏变量,这可能会产生回答错误问题的精确模型。

TransformerCPI的模型架构

作者提出的模型基于transformer架构,该架构最初是为神经机器翻译任务而设计的。transformer是一种自动回归编码器-解码器模型,结合了多头注意层和位置前馈功能来解决序列到序列任务。许多预训练模型限于seq2seq任务,但作者受其捕获两个序列之间特征的强大能力的启发,修改了转换器结构以将化合物和蛋白质视为两种序列来预测CPI。TransformerCPI的概述如图2所示,其中保留了transformer的解码器,并修改了其编码器和最终的线性层。


为了将蛋白质序列转换为顺序表示,作者首先将蛋白质序列拆分为overlapping 3-gram的氨基酸序列,然后通过预训练方法word2vec将所有单词翻译为实值嵌入。Word2vec是一种无监督的技术,用于学习描述复杂的句法和语义词关系的高质量分布式矢量表示形式。集成Skip-Gram和CBOW,word2vec最终可以将单词映射到低维实值向量,其中具有相似语义的单词映射到彼此接近的向量。

然后将蛋白质的顺序特征向量传递给编码器,以了解蛋白质的更多抽象表示形式。作者用相对简单的结构替换了编码器中原始的自我注意层。考虑到传统的transformer架构通常需要庞大的训练语料库,并且容易在小型或中型数据集上过拟合,因此作者使用了带有Conv1D和线性门控的门控卷积网络。因为它在作者设计的数据集上表现出更好的性能。门控卷积网络的输入是蛋白质特征向量。

作者将为解决半监督节点分类问题而设计的GCN转移到解决分子表示问题。当获得蛋白质序列表示和原子表示。交互功能是通过transformer的解码器学习的,该解码器由自我注意层和前馈层组成。蛋白质序列是编码器的输入,原子序列是解码器的输入,解码器的输出是包含相互作用特征且与原子序列长度相同的相互作用序列。并且作者修改了解码器的掩码操作,以确保模型可访问整个序列,这是将变换体系结构从自回归任务转换为分类任务的最关键的修改之一。

最后,将最终的相互作用特征向量反馈给以下完全连接的层,并返回化合物与蛋白质相互作用概率y。

数据集

公开数据集:三个基准数据集,人类数据集,秀丽隐杆线虫数据集和BindingDB数据集。
**标签反转数据集:**之前的许多研究都是通过CPI对的随机交叉组合或使用基于相似性的方法来生成负样本的,这可能会引入意想不到的噪声和不被注意的偏差。首先,作者从GLASS数据库构建了一个GPCR数据集。其次,作者基于KIBA数据集构建了Kinase(Kinase,激活酶)数据集。

为了确认模型实际学习的交互功能并准确评估隐藏变量的影响,作者提出了更为严格的标签反转实验。其中训练集中的配体仅出现在一类样本中(正或负相互作用CPI对),而配体仅出现在测试集中的另一类样本中。通过这种方式,模型被迫利用蛋白质信息来理解相互作用模式,并对那些选择的配体做出相反的预测。如果模型仅存储配体模式,则不可能做出正确的预测,因为其存储的配体在测试集中具有错误的(相反)标签。因此,该标签逆转实验是专门设计用于评估基于化学基因组学的CPI模型,并且能够指示隐藏的配体偏向产生了多大的影响。

总结

具有自注意机制的变换体系结构被修改以解决基于序列的CPI分类任务,从而产生了一个名为TransformerCPI的模型,该模型在三个基准数据集上均显示出高性能。为了解决深度学习的潜在风险,作者构建了特定于基于化学基因组学CPI任务的新数据集,并设计了更严格的标签反转实验。与其他模型相比,在新实验中,TransformerCPI的性能优异,表明它可以学习所需的相互作用特征并降低隐藏的配体偏移的风险。最后,通过将注意力权重映射到蛋白质序列和复合原子上来研究模型的解释能力,这可以帮助作者确定预测是否可靠并且具有物理意义。总体而言,TransformerCPI提供了模型解释的途径,并为进一步实验优化提供了有用的指导。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发呆的比目鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值