论文解读:《iPseU‑Layer: 利用分层集成模型识别RNA伪尿苷(嘧啶)位点》

文章地址:https://link.springer.com/article/10.1007%2Fs12539-020-00362-y
期刊:Interdisciplinary Sciences-Computational Life Sciences(三区)
影响因子:1.512
数据:https://www.sciencedirect.com/science/article/pii/S2162253117301312#ecomp10(补充材料)

模型概念:
朴素贝叶斯(Naive Bayesian,NB)
贝叶斯网络(Bayesian Network,BN)
顺次最小优化算法(Sequential Minimal Optimization algorithm,SOM):基于支持向量机
逻辑回归(Logistic Regression,LR)
C4.5分类算法:决策树算法的一种
随机森林(Random Forest,RF)

1.文章概括

伪尿苷(嘧啶)是最普遍的RNA转录后修饰之一。伪尿苷(嘧啶)位点的鉴定是理解RNA功能、RNA结构稳定、翻译过程和RNA稳定性的重要一步;然而,在实验室探索和生化过程中,高通量实验技术仍然昂贵且耗时。所以,作者提出了一个有效的分层集成模型IPseU-Layer来识别RNA伪尿苷(嘧啶)位点。IPSEU-Layer方法本质上是基于三个不同的机器学习层,包括:特征选择层、特征提取与融合层和预测层。特征选择层进行降维处理,可以看作是一个数据预处理阶段。特征提取和融合层采用集成的方法,通过各种机器学习算法来生成一些输出。预测层采用经典随机森林来识别最终结果。在此基础上,利用现有模型系统地进行了交叉验证测试和独立测试的验证实验。所提出的IPseU层在敏感性(SN)、特异性(SP)、准确性(ACC)和马修斯相关系数(MCC)方面提供了良好的预测性能。IPseU-Layer框架是预测RNA伪尿嘧啶位点的一种可行而有效的策略。

2.背景

伪尿苷(嘧啶)是转录后修饰中含量最丰富的一种,常被称为“第五核糖核苷”。伪尿苷(嘧啶)是尿苷的C5糖苷异构体,由尿苷碱基特异性异构化而来,含有一个额外的亚氨基(>C=NH),作为额外的氢键供体和碳-碳(C-C)糖苷键。这两种化学变化赋予了糖磷酸骨架刚性,并增强了局部碱基堆积。伪尿苷已经在真核生物和原核生物中被发现。由于它的丰度、广泛的定位和高度保守的性质,伪尿苷(嘧啶)修饰被认为是分子机制中的一个重要过程,同时它在基因调控机制中也是极其重要的。由于其独特的结构和化学性质以及已被证实的生物学相关性,伪尿苷(嘧啶)受到了极大的关注。几十年来,伪尿苷(嘧啶)常常聚集在各种细胞RNA的重要区域,包括小核RNA、核糖体RNA(rRNA)、转移RNA(tRNA)和信使RNA(mRNA)。人们认为伪尿苷(嘧啶)对RNA的功能、RNA结构的稳定、翻译过程和RNA的稳定性都有贡献。虽然各种方法已经揭示了伪尿苷(嘧啶)修饰的功能意义,但大多数这些修饰的功能作用还没有被阐明。因此,在不同的生物环境中鉴定和功能表征伪尿苷(嘧啶)修饰位点变得势在必行。此外,准确识别RNA中的伪尿苷(嘧啶)位点对于理解这些细胞过程将是非常重要的。
在这一背景下,几个实验室在开发实验室探索技术方面取得了实质性进展,但由于在实际情况下需要大量的时间和精力,这些技术非常昂贵和劳动密集型。最近,随着基因组学和蛋白质组学技术在后基因组学时代的雪崩,实验技术的特殊补充已经越来越多地被用于识别和预测假尿苷修饰位点。这些方法基于这些高通量测序技术产生的大规模数据,通过机器学习开发出一些快速、健壮和经济高效的计算模型。许多研究人员通过各种基于机器学习的方法对这一主题进行了研究,并取得了一些重要的发现,这也是识别伪尿苷(嘧啶)位点的一个有趣的方向。
一般而言,这些基于机器学习的计算方法主要使用机器学习来提取原始数据的所利用的特征或根据所利用的特征来预测伪尿苷位点。Li等人以伪尿苷周围的核苷酸为特征,采用支持向量机(SVM)识别特定的伪尿苷位点。Chen等人将核苷酸的出现频率密度分布及其化学性质组合成假K-字节组核苷酸组成,达到识别伪尿苷位点的目的。He等人通过顺序前向特征选择策略使用不同类型的特征提取技术,选取相关特征组合,采用经典支持向量机作为分类器对伪尿苷位点进行识别。Muhammad等人开发了一种深度学习技术,直接从序列本身中自动提取重要特征进行分类,其中使用两种简单的特征提取技术作为基线,并使用支持向量机设计分类器,同时,采用卷积神经网络模型来提高识别性能。Liu等人提出了一种基于极值梯度增强的伪尿嘧啶位点识别方法(XG-PSEU),该方法基于前向特征选择和增量特征选择方法得到的一些最优特征来识别伪尿苷位点。对于类似的问题,Dou等人提出了自己的看法,应用双剖面贝叶斯模型提取RNA序列的一些特征,并利用这些特征在一些机器学习方法的基础上建立预测器。

3.数据和方法

3.1 提出的iPseU‑Layer模型的总体架构

iPseU‑Layer的体系结构使用五个机器学习层来开发:一个特征选择层,三个特征提取层和融合层,一个预测层。主要流程图如下图所示:
在这里插入图片描述
如图所示。特征选择层用于降低数据集的维数;特征提取和融合层用于提取和组合特征以生成新的数据集,每层包含6个集成模型(EM),包括基于NB(朴素贝叶斯)的EM、基于BN(贝叶斯网络)的EM、基于LR(逻辑回归)的EM、基于SMO(顺次最小优化算法)的EM、基于C4.5(决策树的一种)的EM和基于RF(随机森林)的EM;预测层用于获得最终的预测类别,即基于RF的EM。假设X={xi}ni=1表示一个训练数据集,其中每个样本包含一些条件属性和一个决策属性。在算法1中,作者简单介绍了如何训练IPseU层模型的伪代码。
在这里插入图片描述

3.2 基准数据集简介

本文使用了三个不同的基准数据集和两个独立的测试数据集。这三个基准数据集是从Chen等人中的补充材料中获得的,被视为训练数据集。三个基准数据集被简单地描述为M_944、S_628和H_990,其中M、S和H分别表示肌肉分枝杆菌、酿酒酵母和智人,每个数字表示相应基准数据集中的样本数。此外,Chen等人还介绍了酿酒酵母和智人的两个独立的测试数据集,分别记为S_200和H_200。
训练数据集和独立测试数据集都由一些阳性样本和一些阴性样本组成,其中每个阳性RNA样本的中心位置都有一个尿嘧啶,可以进行伪尿化,而每个阴性RNA样本的中心位置都有一个尿嘧啶,但不能进行伪尿化。所有的基准数据集是平衡的。这些数据集中的特征向量通过单核酸组成(NAC)、双核苷酸组成(DNC)、三核苷酸组成(TNC)、基于单链的位置特异性三核苷酸组成(PSTNPss)和核苷酸化学性质(NCP)等五种特征提取方法从生物序列中转换而来,这五种特征提取方法分别是:核酸组成(NAC)、二核苷酸组成(DNC)、三核苷酸组成(TNC)、基于单链的位置特异性三核苷酸倾向(PSTNPss)和核苷酸化学性质(NCP)。表1汇总了三个训练数据集和两个独立测试数据集的详细信息,其中2-6列中的数字表示通过相应的特征提取方法提取的特征索引,最后两列表示正样本和负样本的数量。
在这里插入图片描述
如表1所示,如果序列长度为L,则五种特征提取方法得到的特征向量的维数分别为4、42、43、(L−2)和(L×3)。由于M_944和H_990中每个RNA序列的长度为21,S_628中每个RNA序列的长度为31,因此M_944和H_990中的特征数均为166,S_628中的特征数为206。类似地,数据集S_200和数据集H_200分别具有206和166个特征。
特征编码简介:
NCP(单核苷酸组成):A、C、G、U(4种)
DNC(双核苷酸组成):AA、AC、……、UU(16种)
TNC(三核苷酸组成):AAA、AAC、……、UUU(64种)
PSTNPss(基于单链的位点特异性三核苷酸组成):在这里插入图片描述
NCP(核苷酸化学性质):
在这里插入图片描述

3.3 特征选择层

如表1所示,这些基准数据集中的特征数量分别为166和206。对于数据集来说,一些冗余特征不仅占用了更多的存储空间和计算代价,而且削弱了机器学习算法的泛化能力。为了检测冗余特征,作者采用特征选择技术对基准数据集进行预处理,将其作为特征选择层。
在特征选择层中,作者采用了Hall等人提出的基于相关性的特征选择(CFS)算法,通过贪婪的爬山回溯功能搜索特征子集的空间。通过考虑每个特征的个体预测能力以及它们之间的冗余度来评估每个特征子集。CFS算法优先选择与类关联程度高、相关性低的特征子集。本研究利用WEKA软件(版本为WEKA 3.6.9)中的CfsSubsetEval.java类实现了特征选择方法。此外,与特征选择方法相关的所有参数通常被设置为其默认值。表2列出了在三个训练数据集上使用特征选择后剩余特征的索引。
在这里插入图片描述
如表2所示,通过将特征选择技术应用于三个基准训练数据集,这些数据集的原始特征显著减少。M_944数据集中的要素数量从166个减少到22个;S_628数据集中的特征数从206个减少到29个。,H990数据集中的特征数从206个减少到19个。

3.4 特征提取与融合层

第二类层基于各种机器学习算法设计集成模型进行特征提取和融合。因此,作者将其作为特征提取和融合层。首先介绍如何提取一些新的特征,并描述如何生成一个新的数据集。
设X={xi}ni=1是一组样本,其中每个样本包含一些条件属性和一个决策属性。对于集成学习模型,需要预先设置两个参数:基分类器的数量和随机选取样本的比例。在这一层中,作者考虑了六个基本分类器,即NB、BN、LR、SMO、C4.5和RF。每个基分类器可以生成集成模型。作者使用符号δ和符号N分别表示在集成模型中随机选择样本的比例和基分类器的数量。对于一个样本,每个集成模型都可以通过投票策略给出一个预测类别,将投票作为一个新的特征来处理。算法2详细总结了投票特征的提取过程,其中BC表示基分类器的名称。
在这里插入图片描述
从上面的算法2可以看出,每个基类可以生成一个投票特征。由于有6个基分类器,因此在该层中可以产生6个投票特征(6个基分类器各自的选票)。在后续的数据集中,将原始数据集和六个投票特征融合在一起,生成新的数据集,并在下一阶段进一步处理。详细的特征融合过程可以用算法3来描述。在本研究中,所有的基分类器也是由Weka中相应的类实现的。同时,与这些机器学习算法相关的所有参数都被预置为其默认值。
在这里插入图片描述

3.5 预测层

作者以RF作为基分类器,构建了一个用于未知样本预测的集成模型。对于训练数据集X={xi}ni=1,符号δ和符号N分别表示随机选择样本的比例和基分类器的数量。按照集成模型的主要构建步骤,通过简单的随机抽样和替换,得到N个样本子集,每个子集覆盖δ*N个样本。最后,构建了包含N个基分类器的集成模型。
与前几层不同,这一层的目的是预测类别,因此输出不是投票特征,而是预测类别。标注规则是根据多数投票来确定的,多数投票代表每个单独分类器预测的大多数类别标签。另外,基分类器RF由Weka中的RandomForest.java类实现,参数预置为默认值。由于基分类器RF也是基于随机树的集成模型,因此作者在图1中使用随机树对其进行标记。

4.结果

为了突出所提出的IPseU-Layer模型的可行性和有效性,进行了几个实验。在实验中,用Java语言实现了该方法,并应用了Weka的数据结构。所有实验都在英特尔酷睿i7-8550U 1.99 GHz、8 GB RAM和Windows 10(64位)操作系统的计算机上进行。基于两个独立的测试数据集,作者首先研究了参数δ和N对预测质量的影响。此外,还与目前最先进的几种模型进行了比较分析。

4.1 参数δ对性能的影响

本实验主要研究了参数δ对核糖核酸伪尿苷位点识别的Sn、Sp、Acc和Mcc的影响。由于δ代表随机抽取的样本在原始数据中所占的比例,因此在实验过程中,参数δ以1%的改变在2~100%之间进行变化。同时,在实验过程中将参数N预置为50。使用的训练数据集为S_628和H_990。将数据集S_200和H_200分别作为测试数据集。实验进行了二十次。参数δ对平均值的具体影响如图2所示,其中X轴表示参数δ的变化,Y轴表示包括Sn、Sp、Acc和Mcc在内的评价指标的值。
在这里插入图片描述
从图2的曲线可以看出:(1)当参数δ很小时,没有足够的样本来训练模型,因此评价指标没有竞争力;(2)随着参数δ的增加,整体性能随着训练样本数的增加而逐渐提高;(3)当参数δ的继续增加,评价指标没有明显的改善;(4)当参数δ足够大时,由于过大,数据集S_200的性能逐渐受损。

4.2 参数N对性能的影响

类似地,作者还从Sn、Sp、Acc和Mcc的角度考察了参数N对性能的影响。利用数据集S_628和数据集H_990对模型进行训练,其中参数δ固定为5%,参数N在2~200之间变化,步长为2。训练后的模型分别应用于两个独立的测试数据集S_200和H_200。重复20次实验后,记录平均值。图3描述了两个独立测试数据集上平均值的详细变化。
在这里插入图片描述
如图3所示,对于前几个参数N,评价指标没有表现出竞争性结果。如前面介绍中所述,参数N确定基分类器的数量。较小的参数N只能尝试构造较少的基分类器,这限制了集成学习的能力。随着参数N的增加,基分类器的数量也增加,Sn、Sp、Acc和Mcc的值逐渐呈现出竞争的趋势。这可以归因于所提出的模型是一种集成解,有效地改善了预测性能。然而,数量有限的基量词总是更好。此外,对于不同的数据集,其限制也是不同的。当参数达到一定的合理范围时,评价指标变化不大。

4.3 与最先进模型的比较

为了验证IPSeU-Layer在ACC、Sn、Sp和MCC方面的有效性,作者与最先进的模型进行了一些比较:IPSeU-CNN,IRNA-PseU和PseUI。对比分析主要从交叉验证测试和独立测试两个方面进行。交叉验证测试的重点是对S_628、H_990和M_944三个训练数据集进行对比分析。独立测试的目的是通过两个独立的测试数据集S_200和H_200来评估性能。
五倍交叉验证:
在这里插入图片描述
Jackknife(刀切)交叉验证 :
在这里插入图片描述
独立测试:
在这里插入图片描述
从以上描述中,作者可以得到两个结论:(1)对于交叉验证测试,所提出的IPseU层模型在评价指标上对所有训练数据集都有改进;(2)对于独立测试,所提出的IPseU层模型也取得了与一些基于深度学习的模型相似的结果。

5.讨论

本研究提出了一个识别RNA伪尿苷位点的IPseU-Layer模型。IPseU-Layer模型是一种分层集成模型,主要由三个不同的机器学习层组成:特征选择层、特征提取与融合层和预测层。每一层都有自己的功能。在这些机器学习组件的基础上,建立了IPseU-Layer分层集成模型来识别伪尿苷位点。为了验证提出的模型,作者从交叉验证测试和独立测试两个方面进行了实验研究。在交叉验证实验中,该模型在预测RNA伪尿苷的Sn、Sp、Acc和Mcc等方面均比现有模型有较好的预测性能。对于独立测试,本文提出的IPseU-Layer模型也可以获得具有竞争力的结果。综上所述,本研究结果表明,所提出的IPseU-Layer模型可以作为一种潜在的预测RNA伪尿苷位点的工具。
在今后的工作中,对于提出的IPseU-Layer模型,有三个方面值得重点关注。(1)有两个参数N和δ。在实验过程中,作者使用网格搜索技术来确定这两个参数的值。如何快速有效地确定最优参数是一个有意义的课题。(2)IPSEU-Layer模型可能存在过拟合问题。当问题得到解决或削弱时,可以进一步提高在独立测试数据集上的性能。(3)通过一个用户友好的、可公开访问的Web服务器来开发一种实用的预测方法或计算工具是一个热门的研究方向。作者预计,未来将提供用于建议的IPseU层模型的网络服务器。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值