关于PeNGaRoo论文笔记

PeNGaRoo, a combined gradient boosting andensemble learning framework for predicting non-classical secreted proteins

该论文的简介

该论文是一篇介绍一种梯度增强和集成学习相结合的预测非经典分泌蛋白的学习框架。
该问题是一个序列分析的分类模型。

该论文的实验的流程

首先,作者构建通过实验验证的非经典分泌蛋白的高质量数据集。随后,开发了两层轻度梯度增强机(LightGBM)集成模型,将几个基于特征的单个模型集成到整体预测框架。

Introduction部分内容

该部分主要是介绍前人所做的工作及使用的方法,第一个用于预测的是基于六种输入特征的神经网络,包括苏氨基酸含量,跨膜螺旋,肉汁,蛋白质紊乱,二级结构以及基于氨基酸组成(2005)。
第二个是训练了支持向量机svm基于三元分类器SecretP,可预测细菌的分泌蛋白质使用Acc,自协方差和其他功能。此模型是根据较小的带注释的蛋白质数据集进行训练的在swissProt数据库中带有“秘密”且没有“信号”,它们与非经典的分泌蛋白质结合(2010)。
第三个开发了基于svm的分类器,称为NclassGp,可预测非经典分泌的革兰氏阳性基于不同序列转化载体的细菌蛋白质,例如频率,二肽,理化因子和特定位置评分矩阵(pssm)(2011)。
最后简介作者自己所用的方法及贡献。

数据集及使用方法

共有253个非经典分泌蛋白质序列,至少三个不同细菌的三个不同研究组种。对于负训练集,选择了整个1084种蛋白质。最终获得了157个阳性样本和446个阴性样本。由于阳性样本和阴性样本的数量差太大,作者再进一步构建了独立的测试数据集,再进行预测,最后得到34个阳性样本和34个阴性样本作为独立测试数据集。

特征提取

将分类提取特征分为三大类,序列特征。基于进化信息的特征和物理化学基于属性的功能。

序列特征

由于先前研究表明,氨基酸的百分比,结合方式和顺序包含了可用于预测蛋白质特征的有价值的信息。作者提取两种类型的序列衍生特征进行编码,包括伪氨基酸组成(paac)和准序列顺序描述符(qso)。

基于进化信息的特征

研究表明PSSM形式的进化信息可以提供更多信息,在这项研究中我们生成了pssm配置文件。选择并提取了TPC,Pse-PSSM和ATTP特征以对进化信息。

物理化学性质的特征

包括了两种类型的物理化学性质,conjoint(CTriad)和transition among CTD(CTDT)。

模型的训练和优化

LightGBM是一种高性能,分布式梯度提升决策树机器学习实现的。与传统的机器学习算法不同,例如SVM只需调整两个或更少的参数,LightGBM要求用户调整较多的参数。采用了遗传算法的两步调参,应用遗传算法寻找近似最优解。但在文中,提出了一种新型PSO的调参策略来寻找。

集成模型的构建

集成学习已被证明有助于提高预测性能和模型泛化,所以在模型训练之前将所有特征合并到高维特征集中。
首先使用LightGBM对每个特征集的模型进行训练,然后通过对Diffen的预测输出的等加权平均来构建单层整体模型。在同一组中的T特征编码。最后进一步集成了一层整体模型的预测分数,以生成总体得分。

性能的评估

三种常用的验证方法,k折交叉验证法,留一刀验证法和独立测试验证。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值