Title:Learning the protein language of proteome-wide protein-protein binding sites via explainable ensemble deep learning.
期刊:communications biology
中科院分区:1区
影像因子:6.548
Github:https://github.com/houzl3416/EDLMPPI
DOI:10.1038/s42003-023-04462-5
WebSever:http://www.edlmppi.top:5002/
摘要
蛋白质-蛋白质相互作用(PPIs)通过显著影响蛋白质的功能表达来控制细胞通路和过程。因此,准确识别蛋白质-蛋白质相互作用结合位点已成为蛋白质功能分析的关键步骤。然而,由于大多数计算方法都是基于生物学特征设计的,因此没有可用的蛋白质语言模型来直接将氨基酸序列编码为分布式向量表示,以模拟蛋白质结合事件的特征。此外,实验检测到的蛋白质相互作用位点数量远远小于蛋白质-蛋白质相互作用位点或蛋白质复合物中的蛋白质位点,导致数据集不平衡,从而为其性能的改进留下了空间。为了解决这些问题,我们开发了一种基于集成深度学习模型(EDLM)的蛋白质-蛋白质相互作用(PPI)位点识别方法(EDLMPPI)。
评估结果表明,在Dset_448、Dset_72和Dset_164三个广泛使用的基准数据集上,EDLMPPI优于包括几种PPI站点预测模型在内的最先进技术,平均精度优于这些PPI站点预测模型近10%。此外,生物学和可解释性分析从不同角度为蛋白质结合位点的鉴定和表征机制提供了新的见解。EDLMPPI web服务器可在http://www.edlmppi.top:5002/上获得
背景
另一方面,已经提出了大量的蛋白质序列编码方法来将蛋白质序列建模为特征矩阵。蛋白质相互作用位点的单热编码是一种非常有效的方法,已被用于许多计算方法10,12。然而,它们不能准确地表达氨基酸之间的功能差异。位置特定评分矩阵(Position-specific scoring matrix, PSSM)经常被用于序列级和残差级预测任务,以描述序列与函数s4,6,10,11,13之间的关系,由于PSSM需要对大型数据库的序列进行比对,因此相对耗时。近年来,自然语言处理中的词嵌入模型的发展为蛋白质编码寻址提供了可能。Word2Vec14、Doc2Vec15、fastText16、GloVe17等词嵌入模型在生物信息学领域得到了广泛的应用;例如,Zeng等6使用基于ProtVec18的静态词嵌入模型对氨基酸进行编码,提高了PPIs预测的准确性。Ya