论文解读:《利用深度学习方法识别RNA伪尿苷位点》

文章地址:https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0247511
DOI:https://doi.org/10.1371/journal.pone.0247511
期刊:PLOS ONE(三区)
影响因子:2.74
发布时间:2021年2月23日
服务器:http://103.99.176.239/ipseumulticnn/
数据集:http://103.99.176.239/ipseumulticnn/datasets

1.文章概括

伪尿苷(Pseudouridine,Ψ)在核糖核酸、核糖核酸、转录核糖核酸和核仁核仁等多种核糖核酸修饰中广泛存在。因此,鉴定它们在学术研究、药物开发和基因治疗等方面具有重要意义。多年来,已经引进了几种用于伪尿苷鉴定的实验室技术。虽然这些技术产生了令人满意的结果,但它们成本高、耗时长,而且需要熟练的经验。随着RNA序列长度的日益增长,利用计算手段识别伪尿苷位点的有效方法是非常重要的。本文提出了一种采用二进制编码的多通道卷积神经网络。作者使用k折交叉验证和网格搜索来调整超参数。在独立的数据集上评估了它的性能,发现了有希望的结果。结果证明,作者的方法可以用于识别相关目的的伪尿苷位点。作者还在http://103.99.176.239/ipseumulticnn/.实施了一个易于访问的Web服务器。

2.背景

伪尿苷是在原核生物和真核生物中观察到的最常见的RNA修饰。它是由伪尿苷合成酶形成的,这是它在各种RNA中存在的证据。这种酶将尿苷残基从糖中分离出来,并使其沿N3-C6轴旋转180°。分离是通过随后将碱基的5‘-碳重新连接到核糖的1’-碳上来完成的,这个过程了尿苷的异构体–伪尿苷。伪尿苷在RNA的生物学和遗传学方面都起着至关重要的作用,特别是对tRNA(转运RNA)和rRNA(核糖体RNA)。在rRNA的情况下,核糖核蛋白被证明是伪尿嘧啶核酸化所必需的。伪尿苷还可以作为稳定单链和双链区域tRNA的有效机制。此外,由于伪尿苷(如U6snRNA突变体C28的伪尿苷)对丝状生长程序有贡献,不同的物种呈现出不同的前景。此外,与伪尿苷结合的mRNA提高了翻译效率和限制先天免疫反应。因此,寻找一种有效的伪尿苷位点识别方法具有重要意义。
多年来,已经引进了一些实验室技术,产生了令人振奋的结果。Carlile等人介绍了一种转录组范围内的伪尿苷-序列方法。Lovejoy等人在他们的工作中使用了诱导终止反转录的方法。Schwartz等人开发了一种转录组范围的定量图谱系统来识别伪尿嘧啶。所有这些系统不仅昂贵而且耗时。此外,需要熟练和有经验的人员来维护这些系统。这就是为什么需要一种更方便用户的方法来识别伪尿苷位点。
在电子计算机方法中,从核苷酸序列中识别伪尿苷位点的方法并不多。Li等人介绍了一种基于支持向量机的网络服务器,这是第一种识别伪尿嘧啶合成酶(PUS)特异性伪尿苷位点的计算方法,他们从伪尿苷位点周围的核苷酸中提取特征,为人类和酵母样本提供了良好的结果。后来,Chen等人提出了IRNA-Pseu,通过考虑核苷酸的化学性质和出现频率密度分布,改进他们的性能,他们的研究还涵盖了另一个物种(肌肉分枝杆菌)。He等人利用支持向量机提出了另一种名为PseUI的Web服务器,他们生成了五种不同类型的特征,并使用顺序正向特征选择方法选择了一种。
在最近的工作中,Tahir等人在他们的工作中实施了机器学习和深度学习方法,他们在支持向量机分类器中使用n-gram和MMI来提取特征,并在深度学习方法中采用卷积神经网络(CNN),其中CNN分类器的性能更好,这是唯一一种将深度学习方法应用于这项任务的方法。Liu等人利用前向特征和增量特征中的最佳特征提出了一种基于梯度增强的方法XG-PSEU。此外,Mu等人提出了一个由三种机器学习技术组成的集成模型IPseu-layer,他们采用随机森林进行最终预测。
最近的许多工作都使用PseKNC进行特征提取。采用CNN模型不需要任何额外的特征提取技术。CNN已经被证明在计算机视觉问题上很有用。在这项工作中,作者采用了一种CNN模型,其中分别应用了具有不同大小滤波器的多通道卷积层。然后,将这些卷积层中的每一个添加到最大池化层并进行连接。作者的模型在基准数据集和独立数据集上都取得了令人满意的结果。

3.数据和方法

3.1 数据收集

本研究收集了以HS、SC和MM为代表的三种不同物种的数据,它们分别是智人、酿酒酵母和肌动杆菌。有三个基准数据集,HS_990、SC_628和MM_944,每个物种一个用于训练目的。这些数据集中的每一个在样本数量方面都是平衡的。这些数据集与Chen等人从RMBase下载RNA序列时使用的数据集相同。除了这些基准数据集,Chen等人还给出了两个独立的数据集HS_200和SC_200,用于测试智人和酿酒酵母。在HS_200和SC_200中,伪尿苷核糖核酸位点的阳性和阴性样本鉴定数量相同。
Rξ(U)=N−ξN−(ξ-1)…N−1UN1…N+(ξ-1)Nξ
U表示“尿苷(嘧啶)”,N−ξ表示从中心尿苷朝向5‘端的第ξ个上游核苷酸,N表示从中心尿苷朝向3’端的第ξ个下游核苷酸,HS_990和MM_944的ξ为10(序列总长度为21),SC_628为15(序列总长度为31)。

3.2 数据预处理

首先对RNA序列进行预处理。预处理只涉及一个步骤,那就是将输入转换成2维矩阵的二进制“one-hot”编码。输入序列的每个核苷酸被表示为行向量,其中除了一个值之外,所有的值都是零。作者为这项任务应用了两种不同的技术。
普通one-hot编码:A=[1,0,0,0],U=[0,1,0,0],C=[0,0,1,0],G=[0,0,0,1])
合并后序列one-hot编码:使用RNA折叠预测二级结构。有研究表明,二级结构揭示了检测伪尿苷位点的关键结构特征。作者想用计算方法来模拟这种机制,这是预测二级结构并将其与原始序列合并的原因,作者称它为“合并后的序列”(merded-seq)。二级结构提供了一组新的特征,通过与原始序列的合并,生成了一些更多的特征。该技术在Zheng等人的Pre-miRNA检测中提供了良好的预测性能。编码过程如图1所示。
在这里插入图片描述
每个RNA序列的预测二级结构和合并序列可以在支持信息中找到,也可以在以下链接中找到:http://103.99.176.239/ipseumulticnn/datasets。该技术遵循以下步骤:

  1. 使用RNA折叠预测了原始序列的二级结构。这个结构有三种符号:“.”、“(”和“)”。“(”和“)表示5‘端的核苷酸和3’端的互补核苷酸是配对的,而".”表明该核苷酸不与任何其他核苷酸配对。
  2. 形成了一个由原始序列和二级结构组成的合并序列。该合并序列具有N对,N是序列的长度。这些对是通过从原始序列中取出一个核苷酸和从二级结构中取出一个符号而形成的。
  3. 由于RNA中有四种类型的碱基,二级结构中有三种指示符号,所以合并的序列中有12种类型的对。使用“one-hot”技术对合并后的序列对进行编码。所以编码后,长度为N的RNA序列变成了(N×12)的二维矩阵。因此,对于HS和MM数据集,预处理的输入变成(21x12)矩阵,而对于SC数据集,输入变成(31x12)矩阵。

3.3 CNN架构

经过预处理(“one-hot”编码),转换后的2D输入被输送到卷积神经网络。通常,在CNN模型中,输入连接到一些卷积和最大合并层,然后是连接到输出层的几个完全连接的层。作者把预处理的数据作为输入输送到多通道CNN模型,该模型在各种文本分类任务中非常有效,这种方法的目的是确保一个序列在同一时间以不同的长度被处理。在序列模型中,对于每个卷积,只能使用一种大小的滤波器,这可能不会一直提取最好的特征。作者对输入序列应用了多个通道的特征提取操作(卷积和最大合并),并整合了这些特征,以便更好地识别伪尿苷。图2显示了我们的多通道模型的总体架构。
在这里插入图片描述
作者提出模型的每个通道都从卷积层开始。作者调整了通道数和卷积层过滤器的高度,过滤器的宽度保持不变。然后将这些卷积层中的每一个连接到最大池化层。然后,将最大池化层拼接在一起,将由卷积层和最大池层提取的特征组合在一起。最大池化层连接到第一个完全连接的层,该层有1024个节点。然后采用了Dropout的方法来减少冗余。最后给出了分类的概率分布。根据概率分布,对最终产量进行了预测。
卷积层数的选择采用k折交叉验证和网格搜索。作者还用交叉验证选择了过滤器的学习率、辍学率和高度。除了使用Softmax激活函数的最后一层之外,在每一层中都使用Relu激活函数。作者模型的总体结构在过滤器的高度和卷积层数对于不同的数据集是不同的。使用范畴交叉熵作为损失函数。还研究了一些著名的优化算法,如Adam梯度下降(Gradient descent)RMSprop等,目的是最小化损失函数。在这些优化器中,Adam的优化效果最好。

4.结果和讨论

4.1 超参数调整

超参数调整对于最大化模型的预测性能至关重要。在基准数据集上,作者调优了许多超参数来微调模型。使用k-折交叉验证和网格搜索分三个不同的步骤完成了这项工作。我们用k=5来比较与现有的工作作比较,因为他们也应用交叉验证使用相同的值。这意味着将基准数据集分为5个部分,其中,4个部分用于训练,其余的部分用于测试该特定模型。
首先,作者调整了epochs and batch size(批次大小)。然后,使用第一步中的值调整通道数和卷积过滤器的高度。以有多少通道可以单独连接到输入层可以产生最佳精度,调整了通道的数量。最后,使用前面步骤中的值调整学习率和辍学概率。采用网格搜索的方法来选择产生最佳结果的值。
表1给出了考虑和选择的超参数值。作者计算了这些超参数值的每种可能的组合的精度,并选择了提供最高精度的组合。进行调优超参数时,使用了合并序列的“one-hot”编码。然后,分别应用通用编码和合并序列“one-hot”编码来训练模型调整参数值。由于数据集中输入的形状不同,因此选择的值也不相同。它们被用来在基准数据集中训练模型,并通过独立的数据进行评估。
在这里插入图片描述

4.2 训练

在作者的多阶段CNN模型的多重卷积和最大合并层级联后,参数的数量显著增加。所以在第一个完全连通的层之后采用丢弃正则化来减少参数的数量。作者还应用了提前停止,以确保在训练模型中没有过度拟合,这意味着如果验证损失在特定的连续时期之后没有改善,将停止训练过程。在调优超参数之后,使用选择的值在基准数据集中训练模型。
在基准数据集上分别使用通用的“one-hot”编码和合并的序列“one-hot”编码来训练模型,合并序列“one-hot”编码产生了更好的性能。作者在这两种情况下都使用了相同的模型体系结构,使用的是经过调优的超参数。在表2所示的基准数据集上,作者将模型的性能与现有的预测方法(IRNA-PseU、PseUI、IPseU-CNN、XGBoost、IPseU-layer)进行了比较,从表2可以看出,作者的模型取得了令人满意的结果。
在这里插入图片描述

4.3 性能比较

独立测试整体性能:
在这里插入图片描述
独立测试准确性图形化:
在这里插入图片描述
独立测试ROC曲线:
在这里插入图片描述

4.4 学习特征的可视化

在这里插入图片描述

5.总结

作者的目的是使用计算方法从RNA序列中识别伪尿苷位点,构建的模型是一个多级卷积神经网络。在使用“one-hot”编码对数据进行预处理后,采用了CNN模型,该模型具有多个卷积和最大池化层,分别连接到输入层,然后是几个完全连接的层和一个输出层。作者应用了k-折交叉验证和网格搜索来调整超参数,使用从调整中选择的值来训练模型。然后使用独立的数据集对模型的性能进行了测试,在HS_200数据集上的准确率为74%,在SC_200数据集上的准确率为76.5%。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值