Deep neural network and extreme gradient boosting based hybrid classifier for improved prediction 梳理

作者:Satyajit Mahapatra等

期刊:IEEE TCBB

时间:2021.05

0 写在前面的疑惑

1 动机

了解生命的行为过程和致病机制,了解蛋白质-蛋白质相互作用至关重要。

2 贡献

1.)本文采用深度神经网络(DNN)和极端梯度boosting分类器(XGB)相结合的混合方法预测PPI。

2)采用ACC+CT+LD的方式

3)实验丰富,既包括种内,又包括种间。

4)还可以为信号通路分析、预测药物靶点和理解疾病发病机制提供新的见解

3 模型

3.1 数据库

为了进行交叉验证实验,使用了4个标准种内和2个标准种间数据集。

种内数据集:

1)sacccharomyces cerevisiae (s.c evisiae)核心子集:5594个交互对和相同数量的非交互对。

2)幽门螺杆菌(H.pylori):1458个正交互作用和相同数量的负交互作用。

3)Saccharomyces cerevisiae full PPI数据集:该数据集有17257对相互作用对(剔除小于50个氨基酸且序列一致性超过40%的蛋白质序列后)和48954对非相互作用对。

4)Human:3889个交互对和4262个非交互对。

种间数据集:

1)人类宿主与炭疽芽孢杆菌(b.s Anthracis)菌种间交互作用数据集。Human-B Anthracis PPI数据集包含3090对相互作用对和9500对非相互作用对。

2)人类宿主与鼠疫菌相互作用数据集,正、负相互作用的数量分别为4097和12500。通过对寄主-病原体蛋白序列的随机配对,得到了负数据集。

因此,通过随机选择与正样本数相等的负样本,可以得到一个均衡的数据集。平衡数据集随后被用于开发混合分类器。

3.2 评价指标

3.3 模型

3个模块:特征提取、融合层、预测层

                                                                             图1 DNN

极值梯度增强 改进后

                                                                      图2 DNN-XGB

 输入:ACC+CT+LD编码 (20+343+630维)

1)特征提取层

每个通道由四个完全连接的512-256-128-64神经元层组成,这两个通道具有相同的参数,即神经元数量、学习速率、批量大小和激活功能。在这一层中,一对蛋白质序列的原始特征被映射成一个对预测相互作用有用的表示。

P1蛋白质1,M这一层的节点数,经过Relu和Dropout, 输出经过当前层的向量

2)融合层

把经过特征提取完的两条蛋白质向量拼接起来。

3)预测层

针对DNN:

该层由三个密集层64-32-16级联而成,其激活函数为ReLU,其次是一个具有s形激活函数的单个神经元,该神经元将前一层的输入向量Q(维数d)转换为输出分数。

针对XGB:

XGBOOST—eXtreme Gradient Boosting算法原理_fengziyihang的博客-CSDN博客

4 结果比较

A 对本模型的自身评估是以下实验:

实验一:在种内和种间数据集上的性能

实验二:混合分类器与现有分类器的准确率(%)比较

实验三:提出使用t-statistic评估

 

CA1表示类1 5倍交叉验证的acc的均值,S1表示方差

 实验四:使用幽门螺杆菌数据集比较不同分类器的ROC曲线

 

 B 与已有的预测方法进行比较

实验一:在不同数据集上比较预测方法

1)在酿酒酵母(核心子集)数据集上,比较了该方法与现有方法的预测性能

 

2)与现有的先进方法对幽门螺杆菌(核心子集)数据集的预测性能比较

3)在人-炭疽杆菌数据集上与其他最新方法的预测性能比较

4)表9:本文方法与其他最新方法对人-鼠疫耶尔森菌数据集的预测性能比较

 

 C 独立测试集上预测性能的比较

收集的4个独立数据集(线虫、大肠杆菌、智人和小家鼠)上进一步验证了所提出的混合分类器。利用酿酒酵母数据集对DNN-XGB进行训练,并利用训练后的模型预测独立数据集中的蛋白质相互作用。在生物实验分析中,通过使用另一个生物的相互作用对来预测一个生物的相互作用对是基于同源蛋白具有相似的功能行为的假设,由于它们能够保持它们的相互作用。独立数据集只包含交互对。因此,在本研究中,只计算精度(ACC %)并与现有方法进行比较.

 D 基于PPIs网络数据集的预测性能分析

分析蛋白质相互作用网络及其相关信号通路对了解蛋白质的结构和功能具有重要意义。本文利用该模型预测了两个重要的PPI网络数据集,收集的Wnt相关通路的单核网络和交叉网络。这个单核网络由17个蛋白质组成,其中CD9蛋白质与其他蛋白质相互作用。Wnt相关通路的交叉网络是由78个蛋白组成的多核网络。

下图所示,建议的DNN-XGB分类器预测了单核网络中存在的所有交互。在Wnt相关的交叉网络数据集中,预测了96种交互中的95种。

 

E.在PPI网络数据集上,该方法与其他最新方法的预测性能比较

原始PPI特征和幽门螺杆菌数据集非线性变换后特征的t-SNE图分别如图9 (a)和(b)所示。

此推断,提出的DNN体系结构可以有效地从与交互相关的原始特征中提取有意义的信息。当使用XGB进行分类时,与现有方法相比,该信息产生了更好的结果。使用scikit- learn库在python中实现了t-SNE图。融合层的抽象特征。蓝色代表积极的互动,红色代表消极的互动。

 5 总结

在这项研究中,引入了一种新的基于序列的方法,将深度神经网络与极端梯度增强分类器相结合,以准确预测蛋白质-蛋白质相互作用(PPI)。利用非线性变换技术,采用深度神经网络从蛋白质序列的原始特征中客观而深刻地提取显著信息。然后将提取的特征作为XGB分类器的输入,进一步提高了预测精度。实验结果表明,DNN-XGB在预测种内和种间PPI方面都表现得非常好。此外,该方法在独立测试集上取得了很好的精度,这表明它可以用于跨物种预测。对网络数据集的预测结果表明,所提出的方法能够为信号通路的分析、药物靶点的预测和疾病发病机制的理解提供新的见解。实验结果表明,所提出的混合方法是准确预测潜在蛋白质相互作用的有效工具。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值