目录
论文简介
论文代码: https://github.com/Xiaoya-Deng/PPI-sites-prediction
论文原文:https://www.mdpi.com/1422-0067/21/2/467
补充材料: http://www.mdpi.com/1422-0067/21/2/467/s1
作者单位:重庆邮电大学
期刊影响因子:4.556(中科院二区)
摘要
提出一种卷积神经网络用于PPI站点预测,并利用残基结合倾向来改善阳性样本。该方法在改进后的数据集上AUC= 0.912。它在具有高结合倾向的样本上比在随机选择的样本上得到更好的结果。这表明在由残基原子之间的距离确定的阳性样品中有相当多的假阳性PPI位点。对于训练集正负样本不平衡的问题采用EasyEnsemble algorithm构建正负样本数量相等的训练集。
最终: 直接取T个基分类的结果(0,1)进行投票,而是把n个基分类器的预测概率进行相加,最后再通过sign函数来决定分类。
介绍
常用的PPI站点预测方法根据其所依据的信息可分为三类:
- 序列的方法
- 基于结构的方法
- 将序列方法和结构方法进行结合
1 相互作用残基对的定义
两个蛋白质的两个残基之间的欧几里德距离小于等于6 Å(埃格斯特朗,1 Å = 0.1奈米),则认为这两个残基之间有相互作用。根据这个定义,得到12138个阳性样本(相互作用的残基对)和5,522,852个阴性样本(非相互作用的残基对),每个二聚体平均有88个阳性样本和40,006个阴性样本,采用e EasyEnsemble algorithm的方法来平衡正负样本。
1.1 残基对的结合倾向鉴定
- 显性相互作用残基(DIRs)为真阳性样本(TP)
- 被动相互作用残基(PIRs)为假阳性样本(FP)
2. 数据集
使用基准数据集 DBD 5.0和 DBD 4.0, DBD 4.0中有116个二聚体与 DBD 5.0相同,进行以下两个操作处理:
- 一个二聚体的两条相互作用蛋白链来自蛋白质结构分类(SCOP)定义的不同家族,序列同一性小于30%,序列统一性大于30%的去除
- 在未绑定状态的1ZLI序列中有一些删除,因此它被排除在数据集之外
- 174个二聚体用于残基的结合倾向和分布趋势的统计
- 116个二聚体用于模型比较
- 138个二聚体用于验证
- 相互作用残基相对丰度(RAIR):每个残基对的结合倾向
- 残基丰度(AR):表示DBD 4.0中174个蛋白复合物的表面残基总数中每个残基(共20个)的频率
- 相互作用残基丰度(AIR):表示每个残基与20个残基相互作用的频率(共400对)
公式参数理解:
- N: 174个蛋白质复合物的所有表面残基的总数
- N i N_i Ni :残基i的数量
- M i j M_{ij} Mij:基j与残基I相互作用的个数
- M i M_i Mi:与残基i相互作用的总数
2.1 特征
2.1.1 氨基酸编码
20种氨基酸被编码为独热编码
2.1.2 序列特征
输出轮廓特征:
位置特定评分矩阵( PSSM)和位置特定频率矩阵(PSFM)反映了基于进化信息的蛋白质链特定位置残基的保守性,采用滑动窗口的方法用PSIBLAST对NCBI NR数据库进行3次迭代,e值设置为0.001得到PSSM和PSFM,最后得到一个3 × 40的矩阵。
氨基酸理化性质:
使用了24种氨基酸的物理化学性质。将20个氨基酸根据这些特性分为3组,每组采用一热编码,每个氨基酸用72维向量表示。例如,丙氨酸(A)被编码为:
2.1.3 结构特征
以下五种基于结构的特征是用PSAIA来计算得到:
- 可及表面面积(ASA)和相对可及表面面积(RASA)来确定蛋白质表面是否有残基
- 凸度指数(CX)和深度指数(DPX)描述凸度指数(CX)和深度指数(DPX)描述
- 疏水性
3.深度学习模型
3.1 模型的输入
每个残差对被编码为2 × 217 × 1维向量作为网络的输入。
3.2 模型优化
AdamOptimizer进行训练优化。为了防止训练过程中的过拟合,采用了dropout方法和衰减学习率方法
4.结果
4.1 蛋白质中残基的分布趋势
数据集:174二聚体
为了揭示残基的分布趋势,我们首先比较了蛋白质表面残基(ARs)与整个蛋白质(ARw)之间的丰度(AR),并用ARw/ARs作为残基在蛋白质内部的倾向指标。
- N w N_w Nw:整个蛋白质中特定氨基酸的数量
- N i N_i Ni: 蛋白质表面特定氨基酸的数量
- A R w AR_w ARw:所有蛋白残基丰富度
- A R s AR_s ARs:蛋白质表面的大量残基
- ARw/ARs:≥1(阴影)表示倾向于分布在蛋白质内部的残基
4.2 残基绑定倾向
数据集: 论文45
蛋白质残基对不同残基表现出不同的结合倾向。我们使用统计学方法将与某一特定残基相互作用的残基分为高结合倾向残基和低结合倾向残基组,并将其结合倾向与残基的极性、疏水性和分布趋势进行比较。
相互作用残基的相对丰度(RAIR):(RAIR≥1(阴影部分,第2-21行)表示具有高结合倾向的残基对)
结果:
- 10个残基(亮氨酸、异亮氨酸、缬氨酸、精氨酸、组氨酸、半胱氨酸、蛋氨酸、酪氨酸、色氨酸和苯丙氨酸)显示出高的倾向与大多数残基结合(RAIR评分≥1,阴影)
- 除精氨酸(极性= 10.5)和组氨酸(极性= 10.4)外,大多数具有高结合倾向的残基与极性≤7(阴影极性得分)的残基重叠
- 疏水性正的残基(阴影疏水性评分)也表现出更高的结合倾向,除丙氨酸、甘氨酸和脯氨酸具有正疏水性,但结合倾向低。相反,精氨酸和组氨酸具有负疏水性,但结合倾向高
- ARw/ARs≥1(阴影ARw/ARs评分)的残基与那些具有高结合倾向的残基具有很高的一致性,除了丙氨酸(ARw/ARs = 1.22)和精氨酸(ARw / ARs = 0.95)
4.3 阳性样本具有高结合倾向
对两个样本数据集(一个具有高绑定倾向,另一个没有绑定倾向)进行留一交叉验证,两个样本数据集,一个具有高绑定倾向,另一个没有。从DBD 5.0版本的138个二聚体中,共获得12138个阳性样本,5,534,983个阴性样本(Section 4.1)。在阳性样本中,结合倾向≥1的残基对6739对作为最终阳性样本。每种二聚体平均有49对阳性样本。
数据集: 138二聚体
验证方法:留一交差验证
4.4 与随机抽样数据集的比较
数据集:138个二聚体
进一步验证绑定倾向的合理性,进行了一次5倍交叉验证来比较我们的模型的性能与高数据集绑定倾向和数据集随机抽样(也有6739对残渣)从138个二聚体。
4.5 与现有方法的比较
采用的数据集: 116 二聚体
验证方法: 留一交叉验证
第一正向预测的第一阶(RFPP):
RFPP表示在p%的二聚体在前q预测中至少有一个真正阳性的相互作用残基对
**结果:**在复合物的RFPP(100)上有了明显的改进,说明我们的模型具有更好的泛化能力,(如果自己结果并不是所有评价性能都超过时,怎样表示)
5.讨论
- 利用残留结合倾向筛选阳性样本,显著提高了预测性能。我们的方法可能有点激进,但结果表明,通过引入结合倾向来减少假阳性样本的比例是有意义的
- 极性残基组氨酸也表现出了较高的结合倾向
- (ARw/ARs > 1)具有更高的结合倾向。因为大多数这些残基是疏水的,如果它们出现在蛋白质的表面,它们倾向于与其他蛋白质表面的疏水残基相互作用。
- 在具有高结合倾向的改进数据集上。这说明在6Å定义获得的原始阳性样本中存在不可忽视的假阳性交互对,这可能会阻碍提高预测蛋白质作用位点的准确性。
启发
- 如果没有测试集,可以采用多种验证的方法,也是能够达到实验目的撰写论文
- 如果正负样本不平衡时可以抛弃对ACC、SN、SP、MCC这些值的比较
- 可以采用类似 EasyEnsemble algorithm类似的方法平衡正负样本不均衡的问题
- 当正负样本不均衡时,第一阶第一正向预测(RFPP)可应用于蛋白质相互作用的评价指标
- 可以通过自己改造基准数据集,然后用其他的方法进行实验,而不是仅仅去做别人的数据集,用自己的方法。
- 仅仅通过利用序列数据进行简单的实验已经不是蛋白质领域的主流,结构序列数据和结构数据来做可以有效的提升预测的结果。