HDIContact: a novel predictor of residue–residue contacts on hetero-dimer interfaces via sequential information and transfer learning strategy文章梳理
作者:王建新教授团队
期刊:Briefings in Bioinformatics(生信顶刊,IF:13.994)
发表时间:2022年4月
1.背景
蛋白质通过与其他蛋白质相互作用维持细胞在生命中的功能秩序。蛋白质复合物结构信息的测定为疾病和药物的研究提供了生物学见解。最近,在蛋白质单体结构预测方面取得了突破。然而,由于已知的蛋白质结构和复合物的同源序列数量有限,预测异二聚体界面上的残基-残基接触仍然是一个挑战。
tip(我的理解):
1)蛋白质单体与蛋白质复合物:蛋白质单体是单一的蛋白质,本文研究的是蛋白质复合物,是指2种或2种以上的蛋白质/多肽通过二硫键或其他蛋白质相互作用形成的复合物
2)为什么是异源二聚体界面:刚刚开始我已为这个界面是一个特殊的界面,进过查资料和对文章的梳理,这可能只是2个蛋白质相互作用的界面,2个不通的蛋白质,所以称为异。
言简意赅,本文是对蛋白质相互作用界面的探索
2.模型
2.1数据集
选择大肠杆菌数据集,一组来自原核生物的59个蛋白质对,作为验证数据集(20%)和测试数据集(80%)
2.2模型
文章提出了一种新的深度学习方法,从序列数据预测异源二聚体界面预测残基-残基接触,称为HDIContact。它将transformer与BiLSTM相结合,使用转移学习策略和双通道机制从同源序列中提取和整合上下文特定的协同进化信息,用于检测蛋白质间残基接触。HDIContact主要分为两个步骤:(1)生成MSA 2D嵌入(L×R×144);(2) 捕获残差对的2D上下文。总体框架如图1所示。
图1 HDIconcact模型
图1 A:
1)对于输入的配体和受体使用jackhammer单独搜索同源序列,并根据基因组距离将其串联起来
2)通过在2600万单体MSA的大型数据集上预训练模型,从MSA中的共进化列中提取模式信息
3)通过预训练模型通过串联MSA得到(L + R) × (L + R) × 144注意力图
图1 B:
Bilstm分为L-Bilstm和R-Bilstm,前者是在L×144学习,后者是在R×144学习,通过dense获得蛋白质contact map
3.结果
3.1实验1 与先进方法的比较
3.2实验2 模型各模块的比较
3.3实验3 超参数欧几里得距离确定
3.4 案例研究
3.4.1 大肠杆菌蛋白-蛋白复合物分析
择1FM0的D、E链和1GGR的B、A链作为E.coil蛋白-蛋白复合物的两个实例
HDIContact预测的触点均匀分布在界面上(图7A/C),而BPISPI预测的大多数触点集中在界面的一个区域(图7B/D)。具体而言,HDIContact预测的接触点大多接近接触图上的本地接触点,即使它们可能不重叠。
3.4.2 人-病毒蛋白复合物的分析
择了与HIV相关的蛋白复合物O75475-P04584(PDB id:3F9K)作为独立测试案例
图8显示了HDIContct预测的O75475-P04584的前五个蛋白间残基-残基接触。可以看出,尽管残基GLU/3和残基VAL/438根据10Å的截止值被归类为不正确的接触,但仍然相对接近天然接触(红色)。这证明,我们的方法可以为人-病毒相互作用的研究提供一些见解.
4.结论
在本研究中,提出了HDIContact,它是异二聚体界面上残基-残基接触的预测因子。一方面,它将通过预训练蛋白质语言模型学习的协同进化模式提取技术转移到蛋白质间接触预测,以产生MSA 2D嵌入,这可以减少由于序列不匹配或同源性较低而导致的噪声对级联MSA的影响。另一方面,它使用双通道机制从受体和配体的两个不同方向捕获MSA 2D嵌入上残基对的2D上下文,并通过与其他深度学习模型架构的比较证明了其有效性。我们对具有足够同源序列的大肠杆菌测试数据集进行了比较评估,实验表明,HDIContact在蛋白质间残基接触预测方面取得了最佳性能。此外,我们发现,我们的方法对不同深度的MSA和距离阈值更具鲁棒性。此外,我们通过实现与HIV相关的蛋白质复合物的最高精度,证明了人类-病毒复合物的HDIContact的潜力。在未来的工作中,将预测的接触整合到蛋白质-蛋白质对接中,以提高蛋白质复合物3D结构预测的准确性。
代码:https://github.com/guofei-tju/zw-tju-HDIContact