论文基本情况
- 期刊:《Computers in Biology and Medicine》
- 影响因子及中科院分区:IF: 3.434,中科院三区
- 发表日期:2020年7月
- 作者单位:青岛科技大学
- 代码地址: https://github.com/QUST-AIBBDRC/StackPPI/
- 原文链接:https://www.sciencedirect.com/science/article/abs/pii/S0010482520302481
一、论文创新点:
- 提出了一种新的预测蛋白质-蛋白质相互作用的方法——StackPPI
- 融合PAAC、AD、AAC-PSSM、Bi-PSSM和CTD提取物理化学、进化和序列信息
- 采用XGBoost特征选择方法消除冗余,保留最优特征子集
- 首次利用RF、ET和LR构建了堆叠集成分类器。
二、方法
(一)、特征提取方法
- 伪氨基酸组成(PAAC)
- 自相关拓扑指数(AD:MoreanBroto, Moran, and Geary autocorrelation)
- ACC-PSSM和Bi-PSSM
- CTD(CTDC,CTDD,CTDT)
详情见代码
(二)、XGBoost特征选择
XGBoost是一种梯度提升决策树,它使用正则化学习和缓存感知块结构树学习进行集成学习。损失函数如下:
通过增益来确定最优的分裂节点:
XGBoost的特征重要性评分越高,说明相应的特征越重要,越有效,我们根据特征重要性的降序排序得到排名靠前的特征来表征ppi,取前300个重要的特征。
(三)、叠迭分类器:
堆叠集成分类器算法进行两阶段学习;第一阶段使用一个多分类器系统,第二阶段使用一个元分类器,编码序列、进化和衍生的物理化学性质特征,代表蛋白质对,作为数字载体和类别标签提供到第一个阶段。这产生了被元分类器用作输入的概率数据,然后将蛋白质对标记为“相互作用”或“非相互作用”。
- 两个RFs和两个极端随机化树作为基本分类器(数的数量为500,其他参数默认)。
- 在堆叠集成分类器的第二层,使用LR算法]作为元分类器(所有的参数默认)
算法步骤:
三、数据
训练集:
- 幽门螺杆菌( Helicobacter pylori),正负样本各位1458
- 酵母菌(Saccharomyces cerevisiae),正负样本各位5594
测试集:
- Homo sapiens,相互作用对数量为1412
- Mus. Musculus,相互作用对数量为313
- Caenorhabditis elegans,相互作用对数量为4013
- E. coli,相互作用对数量为6954
基因数据:
- Wnt-related pathway:96个作用对
- disease-specific:108个作用对