论文解读:《BACPI:一个用于复合蛋白相互作用和结合亲和力预测的双向注意神经网络》

期刊名:Bioinformatics

分区:Q1

发表:2022年1月8号

代码数据集:GitHub - CSUBioGroup/BACPI

一、摘要

       BACPI,以预测CPI(化合物-蛋白质相互作用)和它们的结合亲和力,识别化合物-蛋白质相
互作用(CPIs)是药物发现过程中十分重要的一步。该模型直接以 化合物蛋白质的低表达为输入,
并使用GAT(图注意力网络)来预测化合物,使用CNN(卷积神经网络)来预测蛋白质。
     
       具体来说,化合物用原子邻接图表示,蛋白质用氨基酸序列表示。我们分别用GAT和CNN来学
习原子和氨基酸的表示。此外,我们设计双向关注(原子的注意蛋白质和氨基酸复合)神经网络架构的
集成表示化合物和蛋白质,可以指导模型关注原子和氨基酸,从而增加模型的可解释性。最后,将复
合蛋白对的整合向量表示输入分类器预测cpi或回归模型预测复合蛋白结合亲力。
     
       该类型预测可分为两类:基于结构的方法和无结构的方法。基于结构的方法:观察CPIs的作用
模式还能预测结合亲和力,可以预测三维结构上面的潜在结合位点,缺点:计算要求高3D,结构
有局限性。为了消除上面的问题:研究出了无结构方法:基于机器学习、基于网络、基于矩阵分解
的CPI预测。无结构测试方法缺陷:大多数无结构方法忽略了 蛋白质配体相互作用的结合亲和力
值的生物活性信息,而主要关注于二元分类问题。此外,如果没有利用结构信息,它们的可解释性
仍然是有限的。
       
  评价指标:化合物与目标蛋白之间的结合亲和力通过解离常数(Kd)、抑制常数(Ki)或半最大抑制浓
度(IC50)等指标来量化。这三种测量值都较低,说明结合强度较高。预测复合蛋白结合亲和力是一
个基于回归的问题,其目的是预测CPI强度的近似值。

二、数据与方法

     
       采用端到端的神经网络,双向注意神经网络,采用图注意力网络(GAT)和卷积神经网络
(CNN)数据集采用了人类与铁线虫的数据集,3个CPI和4个绑定亲和度数据集  使用二元交互数
据集和连续亲和数据集来评估BACPI在cpi和绑定亲和预测任务中的性能。
human和C.elegans CPI数据集来评估我们的模型在CPI预测任务中的分类性能,其中包含3369个
人类数据集和4000个线虫数据集的正交互作用。通过综合多种化合物和蛋白质资源的系统筛选,
获得高可信度的阴性样本,人类数据集为384 916份,线虫数据集为88 261份。

     

        通过GAT和CNN的端到端学习获得的特征来表示化合物和蛋白质。对于化合物,我们使用

RDKit将化合物的SMILES格式转换为图形表示,并使用GAT学习化合物的特征表示,可以提取图

形的各种信息,如原子类型、芳香度、化学键类型等。对于蛋白质,我们的CNN以该蛋白质的氨

基酸序列作为输入,学习该蛋白质的特征表示。最后,利用我们的双向注意神经网络整合化合物和

蛋白质的表征,预测输入的化合物和蛋白质对的相互作用和结合亲和力。给定一组复合蛋白对标签

(交互或亲和力),培训目标是最小化损失函数(叉CPI损失预测任务和亲和力的预测均方误差),使用反

向传播来优化权重矩阵和偏差向量,CNN与双向注意神经网络

由于真实的CPI数据集通常是不平衡的,我们设置了不同的正负样本比率(如1:1、1:3和1:5)来评估

预测模型的稳健性。

三、结果

 解释:图2和图3显示了人类和秀丽隐杆线虫数据集上的AUC和AUPR得分。可以看出,在

两个数据集上,与这些方法相比,提出的BACPI方法取得了最好的性能。这表明,端到端表示学习

方法可以探索有用的化合物和蛋白质的性质,以进行下游预测。我们还发现,当阳性样本和阴性样

本比例增加时,大多数方法的AUC得分保持稳定或略有上升,而所有方法的AUPR得分均有所下

降。这主要是因为召回和准确性都集中在少数类,这导致AUPR比AUC更惩罚假阳性。因此,在处

理不平衡数据集时,AUPR对方法的性能给出了更准确的评估,而AUC可能提供了对性能的乐观看

法。可以看到,在不平衡数据集(正、负样本比为1:3或1:5)上,我们的方法在AUPR方面明显优于

其他方法在人类和线虫数据集上的AUPR。实验结果表明,BACPI在不平衡数据集上具有良好的稳

定性和可靠性。

 评价表2、3:深度学习方法比机器学习方法(脊回归、套索回归和RF)具有更高的准确率。这主要

是因为深度学习具有强大的特征学习能力。

深度学习方法比机器学习方法(脊回归、套索回归和RF)具有更高的准确率。这主要是因为深度学习

具有强大的特征学习能力。

表3显示了不同预测方法对4个数据集的皮尔逊相关系数(PCC)结果。BACPI方法在IC50和Ki数据集

上的效果最好,在EC50数据集上的效果与MONN和deepurpose相同,在Kd数据集上的效果次之。

所有的比较结果表明BACPI可以有效地预测化合物和蛋白质的结合亲和力。

         表4显示了前10名候选药物和3种无关药物的预测结果。这些结果表明,在10种推荐药物中,有7种已经被许多研究证明了它们对SARS-CoV2的复制抑制作用。我们发现Darunavir、Cobicistat、Ritonavir和Ivermectin是目前正在接受2019年治疗冠状病毒病临床试验的四种候选药物。相比之下,三种无关药物(阿莫西林、青霉素和阿司匹林)对3CLPro靶标的吸引力和结合亲和力较弱,分别在87个药物中排名第78、80和82位。这些实验结果证实了BACPI在筛选再利用候选者方面的可靠性。 

四、最终结论

     提出了一种端到端的表示学习方法来预测cpi和结合亲和力,只使用化合物的分子图和蛋白质序
列。使用GAT和CNN从化合物和蛋白质的原始数据中学习表示,并在CPI预测任务或亲和力预测任
务中使用双向注意神经网络。BACPI在测试human和c.elegans两个数据集CPI方面结果好。
  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值