利用XGBoost特征选择和堆叠集成分类器提高蛋白质-蛋白质相互作用预测精度

本文链接：https://blog.csdn.net/wangpan007/article/details/115357120

文章目录

论文基本情况
一、论文创新点：
二、方法
(一)、特征提取方法
(二）、XGBoost特征选择
（三）、叠迭分类器：
三、数据
四、实验结果
（一）参数的确定（m=9）
（二）、基分类器确定，元分类器比较

论文基本情况

期刊：《Computers in Biology and Medicine》
影响因子及中科院分区：IF： 3.434，中科院三区
发表日期：2020年7月
作者单位：青岛科技大学
代码地址： https://github.com/QUST-AIBBDRC/StackPPI/
原文链接：https://www.sciencedirect.com/science/article/abs/pii/S0010482520302481

一、论文创新点：

提出了一种新的预测蛋白质-蛋白质相互作用的方法——StackPPI
融合PAAC、AD、AAC-PSSM、Bi-PSSM和CTD提取物理化学、进化和序列信息
采用XGBoost特征选择方法消除冗余，保留最优特征子集
首次利用RF、ET和LR构建了堆叠集成分类器。

二、方法

在这里插入图片描述

(一)、特征提取方法

伪氨基酸组成（PAAC）
自相关拓扑指数（AD：MoreanBroto, Moran, and Geary autocorrelation）
ACC-PSSM和Bi-PSSM
CTD(CTDC,CTDD,CTDT)
详情见代码

(二）、XGBoost特征选择

XGBoost是一种梯度提升决策树，它使用正则化学习和缓存感知块结构树学习进行集成学习。损失函数如下：
在这里插入图片描述
通过增益来确定最优的分裂节点：

XGBoost的特征重要性评分越高，说明相应的特征越重要，越有效，我们根据特征重要性的降序排序得到排名靠前的特征来表征ppi，取前300个重要的特征。