利用XGBoost特征选择和堆叠集成分类器提高蛋白质-蛋白质相互作用预测精度

论文基本情况

  • 期刊:《Computers in Biology and Medicine》
  • 影响因子及中科院分区:IF: 3.434,中科院三区
  • 发表日期:2020年7月
  • 作者单位:青岛科技大学
  • 代码地址: https://github.com/QUST-AIBBDRC/StackPPI/
  • 原文链接:https://www.sciencedirect.com/science/article/abs/pii/S0010482520302481

一、论文创新点:

  • 提出了一种新的预测蛋白质-蛋白质相互作用的方法——StackPPI
  • 融合PAAC、AD、AAC-PSSM、Bi-PSSM和CTD提取物理化学、进化和序列信息
  • 采用XGBoost特征选择方法消除冗余,保留最优特征子集
  • 首次利用RF、ET和LR构建了堆叠集成分类器。

二、方法

在这里插入图片描述

(一)、特征提取方法

  1. 伪氨基酸组成(PAAC)
  2. 自相关拓扑指数(AD:MoreanBroto, Moran, and Geary autocorrelation)
  3. ACC-PSSM和Bi-PSSM
  4. CTD(CTDC,CTDD,CTDT)
    详情见代码

(二)、XGBoost特征选择

XGBoost是一种梯度提升决策树,它使用正则化学习和缓存感知块结构树学习进行集成学习。损失函数如下:
在这里插入图片描述
通过增益来确定最优的分裂节点:
在这里插入图片描述
XGBoost的特征重要性评分越高,说明相应的特征越重要,越有效,我们根据特征重要性的降序排序得到排名靠前的特征来表征ppi,取前300个重要的特征。

(三)、叠迭分类器:

堆叠集成分类器算法进行两阶段学习;第一阶段使用一个多分类器系统,第二阶段使用一个元分类器,编码序列、进化和衍生的物理化学性质特征,代表蛋白质对,作为数字载体和类别标签提供到第一个阶段。这产生了被元分类器用作输入的概率数据,然后将蛋白质对标记为“相互作用”或“非相互作用”。

  • 两个RFs和两个极端随机化树作为基本分类器(数的数量为500,其他参数默认)。
  • 在堆叠集成分类器的第二层,使用LR算法]作为元分类器(所有的参数默认)
    算法步骤:
    在这里插入图片描述

三、数据

训练集:

  • 幽门螺杆菌( Helicobacter pylori),正负样本各位1458
  • 酵母菌(Saccharomyces cerevisiae),正负样本各位5594

测试集:

  • Homo sapiens,相互作用对数量为1412
  • Mus. Musculus,相互作用对数量为313
  • Caenorhabditis elegans,相互作用对数量为4013
  • E. coli,相互作用对数量为6954

基因数据:

  • Wnt-related pathway:96个作用对
  • disease-specific:108个作用对

四、实验结果

(一)参数的确定(m=9)

在这里插入图片描述

(二)、基分类器确定,元分类器比较

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值