im5C-DSCGA:基于改进的 DenseNet 和注意力机制的混合框架,用于识别人类 RNA 中的 5-甲基胞嘧啶位点

摘要

        背景:5-甲基胞嘧啶(m5C)是一种关键的转录后修饰,在RNA代谢中起着至关重要的作用。由于生物体中已鉴定的m5C修饰位点大量增加,它们的表观遗传作用变得越来越不为人所知。因此,准确识别m5C修饰位点对于深入了解细胞过程和其他与生物功能相关的机制至关重要。虽然研究人员已经提出了一些传统的计算方法和机器学习算法,但仍然存在一些局限性。在本研究中,我们提出了一种更强大、更可靠的深度学习模型im5C-DSCGA,用于识别人类中新的RNA m5C修饰位点。方法:我们提出的 im5C-DSCGA 模型最初使用三种特征编码方法——one-hot、核苷酸化学性质 (NCP) 和核苷酸密度 (ND)——来提取 RNA 序列中的原始特征并确保剪接;接下来,将原始特征输入到改进的密集连接卷积网络 (DenseNet) 和卷积块注意模块 (CBAM) 机制中以提取高级局部特征;然后,双向门控循环单元 (BGRU) 方法用于从高级局部特征中捕获长期依赖关系并使用 SelfAttention 提取全局特征;最后,使用集成学习并使用全连接对 m5C 位点进行分类和预测。结果:基于深度学习的im5C-DSCGA模型在灵敏度(Sn)、特异度(SP)、准确度(Acc)、马修相关系数(MCC)和曲线下面积(AUC)方面表现良好,在使用三种特征编码方法后,在独立测试数据集中分别产生81.0%、90.8%、85.9%、72.1%和92.6%的值。结论:我们使用五倍交叉验证和独立测试严格评估了im5C-DSCGA的性能,并将其与现有方法进行了比较。在使用独立测试时,MCC指标达到72.1%,比目前最先进的预测方法Deepm5C模型高3.0%。结果表明,im5C-DSCGA模型实现了更准确和稳定的性能,是预测m5C修饰位点的有效工具。据作者所知,这是首次将改进的 DenseNet、BGRU、CBAM Attention 机制和 Self-Attention 机制结合起来预测人类 RNA 中的新型 m5C 位点。

关键词:RNA;5-甲基胞嘧啶位点识别;DenseNet;BGRU;改进的 CBAM 注意力;自注意力;深度学习;集成学习

1. 引言

        转录后修饰是生物信息学研究的一个重要领域,目前已鉴定出 170 多种 RNA 修饰 [1]。RNA 会发生多种转录后化学修饰,包括 N1-甲基腺苷 (m1A)、N7 甲基鸟苷 (m7G)、N4-甲基胞嘧啶 (m4C)、5 甲基胞嘧啶 (m5C)、5-羟甲基胞嘧啶 (hm5C) 和 N6-甲基腺苷 (m6A) [2]。其中,5 甲基胞嘧啶 (m5C) 是涉及各种细胞过程的最常见修饰之一。此外,5-甲基胞嘧啶 (m5C) 是一种广泛存在的 mRNA 修饰,发生在 mRNA 转录本的非翻译区 [3,4]。它对许多生物功能至关重要,包括 tRNA 识别、RNA 代谢和应激反应。研究表明,m5C修饰位点在基因表达的多个方面发挥着重要的调控作用,包括核糖体重组、翻译和RNA输出[5]。此外,m5C修饰位点与许多癌症和疾病的发展有关,例如肺癌、肝癌、乳腺癌、常染色体隐性智力低下、肌萎缩侧索硬化症和帕金森病[6– 9]。因此,准确识别RNA中的m5C修饰位点对于揭示相关疾病的表观遗传调控、了解此类修饰的机制和功能具有重要意义。 近年来,RNA修饰受到越来越多的关注,已经开发了许多计算方法来预测RNA中的m5C修饰位点。 一些高通量测序技术,如氧化亚硫酸盐测序 [10]、亚硫酸盐测序 [11]、m5C-RIP-seq [12,13]、Aza-IP-seq 和 miCLIP-seq [14, 15],在过去经常用于识别 RNA 中的 m5C 修饰位点。然而,这些方法测序成本高、耗时长,因此一系列基于机器学习算法的优秀模型被应用于m5C修饰位点,如m5Cpred-SVM[16]、m5Cpred-XS[17]、iRNA5hmC[18]、Staem5[19]等。但机器学习算法只适用于小规模数据集,在数据量较大时可能表现不佳。深度学习算法可以自动处理大规模数据集,能够更好地提取序列的原始特征,从而提升模型的性能。例如,Ali等人[20]开发了iRhm5CNN模型,这是一种高效可靠的用于识别RNA 5hmC位点的计算预测模型,他们使用one-hot编码从RNA序列中提取特征,并利用深度学习中的卷积神经网络结构取得更好的性能。因此,需要寻找或开发一种新颖有效的深度学习方法来识别人类RNA中的m5C修饰位点。 传统的卷积神经网络(CNN)[21,22]在网络深度较深时更容易出现梯度消失问题,而ResNet[23]可以训练更深的CNN模型,达到更高的准确率(Acc)。ResNet在学习过程中参数数量较大,而密集连接卷积网络(DenseNet)[24]通过增强特征传播,大大减少参数数量,缓解梯度消失问题。 这些优势使得使用DenseNet能够以更少的参数和计算成本取得比ResNet更好的性能。例如,Wang等人[25]在2020年设计了一个名为MDCAN-Lys的预测器,利用DenseNet识别赖氨酸乙酰化位点,并在独立的测试数据集上获得了优异的实验结果。随后,Jia 等人 [26] 提出了一种 DeepDN_iGlu 预测器,使用 DenseNet 和注意力机制来预测赖氨酸戊二酰化位点。因此,我们提出的 im5C-DSCGA 模型引入了改进的 DenseNet,以提取 RNA 序列中更高级的局部特征。

        传统的循环神经网络(RNN)[27]在学习过程中容易出现梯度消失或梯度爆炸的问题,难以捕捉长RNA序列中各个碱基之间的依赖关系。因此,我们提出的im5C-DSCGA模型引入了双向门控循环单元(BGRU)[28]来捕捉m5C特征之间的长期依赖关系。值得注意的是,深度学习中的注意力机制也经常应用于生物信息学。因此,我们提出的im5C-DSCGA模型引入了改进的卷积块注意力模块(CBAM)注意力[25,29]模块和自注意力[30]模块来捕捉RNA序列中突出的关键特征和全局特征。 2021年,A. EI等人[31]发表了一篇关于m5C修饰位点预测模型的综述。该综述清楚地介绍了目前常用的m5C修饰位点预测模型,并描述了不同模型的评估指标。综上所述,本综述为研究者提供了对m5C修饰位点预测模型的全面认识,为今后的研究和应用提供了宝贵的指导和启示。表1列出了一些m5C修饰位点预测工具的性能,其中NS表示样本数量,WS表示字长。 传统的生物信息学医学实验方法成本高、耗时长,因此开发计算技术并推导出一些优秀的预测器至关重要。我们提出了一种在深度学习背景下识别m5C修饰位点的预测器。 而且,我们的预测器只需要输入一个RNA序列就可以预测这个RNA序列是否是m5C修饰位点,这可以为生物学家提供更便捷的工具,帮助他们更好地理解m5C修饰位点在人类RNA中与基因表达的关系。在本研究中,我们设计了一种基于改进的DenseNet、BGRU、CBAM Attention和Self-Attention组合的混合网络结构,称为im5C-DSCGA模型,用于预测人类RNA中的m5C修饰位点。第 2 节详细介绍了 im5C-DSCGA 模型和每个模块的网络结构。

2. 材料与方法

         在这项工作中,我们提出了使用基于深度学习的方法识别人类 RNA 中的 5 甲基胞嘧啶位点。此后,我们将本节中的工作分为四个部分:基准数据集、模型架构、特征提取和评估指标。

2.1 基准数据集

         数​​据集的选取是模型构建的关键部分,本研究采用了Hasan M M 等人[32]的基准数据,以人为研究对象,研究了m5C修饰位点的分布情况,如表2所示。基准数据集具体情况。 为了获得高质量的数据集,他们使用CD-HIT [33]软件去除相似度超过90%的DNA序列。值得注意的是,为了评估模型的稳健性,我们使用与最近研究相同的策略,从原始数据集中随机选择20%(11,630个m5C和11,630个非m5C)并作为独立数据集处理。然而,剩下的 80%(46,559 个 m5C 和 46,559 个非 m5C)被用作训练数据集来开发预测模型。基准数据集的详细信息如表 2 所示。

2.2 模型架构

        对于模型架构,我们的讨论将分为两部分。首先,我们将总结 im5C-DSCGA 模型的整体架构,然后详细描述每个模块的结构。

2.2.1 im5C-DSCGA 模型

        在本研究中,我们总结了在同一数据集上识别 m5C 修饰位点的预测方法以及 m5C 修饰位点预测的当前进展。虽然 Deepm5C 模型 [32] 取得了相当大的进展,但仍有一些不足之处需要克服。因此,我们设计了一种称为 im5C-DSCGA 的新型深度学习模型来识别人类 RNA 中的 m5C 修饰位点。 图1总结了im5C-DSCGA模型的预测和评估流程设计,该流程由四个部分组成,分别为特征编码、im5C-DSCGA模型框架、集成学习模块和性能评估。在特征编码部分,我们使用了三种编码方式,分别是onehot编码、核苷酸化学性质(NCP)和核苷酸密度(ND)。在模型框架部分,对于给定的RNA序列,网络框架由六个模块组成,分别是输入模块、改进的DenseNet模块、改进的CBAM Attention模块、BGRU模块、Self-Attention模块和输出模块。输入模块用于在对三种特征进行编码后,将原始RNA序列输入到后续的DenseNet模块中。然后,利用改进的DenseNet模块,网络可以提取比残差网络和普通卷积神经网络更高级的特征。改进的CBAM Attention模块用于通过在RNA序列的相应位置乘以Spatial Attention模块和Channel Attention模块来提取更关键、更突出的特征。

图 1. im5C-DSCGA 模型结构。(A)特征编码。使用 one-hot、NCP 和核苷酸密度 (ND) 对 RNA 序列进行特征编码,以获得 8 × 41 特征矩阵。(B)im5C-DSCGA 模型框架。最终的预测器称为“im5CDSCGA”,其中“i”代表“标识”,“m5C”代表“m5C 修饰位点”,“D”代表使用改进的密集连接卷积网络 (DenseNet),“SC”代表使用改进的卷积块注意模块 (CBAM),“G”代表使用双向门控循环单元 (BGRU),“A”代表使用自注意机制。特征矩阵经过三次编码后输入 DenseNet 模块,随后引入改进的 CBAM 注意模块以提取更关键的特征。使用全连接神经网络输出预测概率。(C)集成学习模块。使用五重交叉验证来验证模型,其中每重都使用独立测试集进行测试。为每个测试 RNA 序列生成五个预测概率,并使用软投票来确定最终分类。(D)性能评估。我们展示了交叉验证和独立测试的评估。GRU,门控循环单元。

        它们各自的特征矩阵。BGRU模块也使用上面的输出特征向量作为输入。BGRU模块旨在比门控循环单元(GRU)和普通循环神经网络更有效地获得高级特征之间的长期依赖关系。 自注意力机制模块用于评估RNA序列特征的重要性。输出模块使用全连接神经网络接收这些高级特征作为输入,并使用softmax激活函数计算0到1之间的概率值。在集成学习模型部分,我们使用了同构集成[34]方法,该方法最终使用软投票进行分类。这里取三个概率值的平均值以获得最终的预测概率。如果概率值大于0.5,则识别出m5C修饰位点;反之亦然。在性能评估部分,我们展示了通过交叉验证和独立测试对im5C-DSCGA模型的评估。

2.2.2 ResNet

        ResNet[23]是一种改进的卷积神经网络,它解决了CNN中可能出现的退化问题,如图2所示。结果表明,CNN的整体性能在很大程度上受到网络层数的影响。具体来说,神经网络的层数越多,网络可以进行的特征提取就越复杂,理论上可以获得更好的结果。然而,当深度达到一定程度时,准确率就会饱和甚至下降。这就是所谓的退化问题,它使得训练更深的神经网络变得越来越困难。然而,残差网络利用快捷连接解决了深度网络中的模型退化问题。与传统神经网络相比,在其他两层之间增加了快捷连接,并通过残差学习发挥了更深层的作用。随着网络层数的增加,残差卷积神经网络可以获得更好的学习效果。残差神经网络由一系列称为残差块的基本块组成,它学习所需的映射并使用特殊的短路机制将它们连接起来。残差是观测值与估计值的差值。设在某一层内,求出的映射(最优函数)记为H(x),即观测值,而前一个残差块输出的特征映射为x,即估计值,则网络的残差映射函数F(x)(拟合的目标函数)定义为:F(x)=H(x)−x(1)其中函数F(x)称为残差函数。最优函数的存在避免了负最优化问题,而残差函数可以更好地学习深度网络的特征。ResNet的快捷连接如图3所示。

残差块。ResNet 由一系列称为残差块的基本块组成。对于残差块,我们使用了三层瓶颈结构,如图 4 所示。它通过 1×1 卷积核减小了特征图的大小,这意味着 3×3 卷积核的数量不受前一层输入的影响,其输出也不会影响下一层。中间的 3×3 卷积层首先在 1×1 卷积层下降维,然后在另一个 1×1 卷积层下升维。这在保持模型精度的同时,减少了网络参数和计算量,从而节省了计算时间。

2.2.3 改进的DenseNet

        传统CNN存在特征提取不充分导致网络性能下降的问题。 DenseNet是一种基于ResNet的改进型卷积神经网络,其网络结构由卷积层、dense block层和transition层组成。RNA序列采用三种特征编码方式进行编码,特征矩阵先经过卷积层、dense block层、transition层。本研究对DenseNet原有的网络结构进行了改进,去掉了一层卷积层和编码RNA序列的特征矩阵,将三种特征编码方式直接输入到dense block层,并在dense block层和transition层之间增加了一个batch normalization层,最终得到RNA序列的高层特征。 改进的DenseNet在更深层次上提取了RNA序列的原始特征信息,增强了im5C-DSCGA模型的鲁棒性,泛化能力更强。图5给出了改进后的DenseNet的网络结构。

2.2.3.1 Dense block。

        DenseNet采用dense block结构,这是一种密集的连接机制,具体用来将前面所有卷积层的输出连接在一起作为下一个卷积层的输入,实现特征重用。dense block结构提高了模型的效率,也增强了模型的表达能力。 图6给出了dense block的网络结构,由L层网络结构加上非线性变换函数组成,非线性变换函数由一个3×3的卷积核和一个批量归一化(BN)组成。DenseNet的第L层接收前面L-1层的所有特征图输出。

其输出的计算公式表示为:

xL=HL([x0,x1,…,xL−1])(2)

其中L表示层数,xL表示L层的输出,HL表示非线性变换。[x0,x1,…,xL−1]表示连接第0层到第L-1层的特征图。

2.2.3.2过渡层。

        过渡层的主要作用是连接两个相邻的dense block,减小输出特征图的大小。过渡层由一个1×1的卷积核和一个2×2的平均池化组成。 由于dense block最终输出特征图的通道可能变大,导致参数爆炸,导致训练速度变慢。本研究采用1×1卷积核减少最终特征图中的通道数,采用2×2平均池化压缩感受野大小,使得im5C-DSCGA模型复杂度和计算量降低,提升网络泛化能力。 在过渡层中,我们在1×1卷积核前增加一个BN层,BN可以对每一批数据进行归一化,减少梯度消失、梯度爆炸等问题,同时减少参数数量,加快模型训练速度,提升模型泛化能力。

BN表示为:

其中,γ 和 β 为可训练参数,σ2 为数据集的方差,µ 为数据集的均值。

2.2.4 改进的 CBAM

         由于考虑到不同特征的重要性不同,我们在 DenseNet 模块之后引入了一个改进的 CBAM Attention [25] 模块来加权特征映射,从而进一步提高 im5C-DSCGA 模型的预测能力。CBAM Attention 是前馈卷积神经网络中一种简单有效的注意机制,它包括两个模块,一个通道注意模块和一个空间注意模块,如图 7 所示。 原始的 CBAM Attention 首先使用通道注意模块对原始特征进行评估,然后将通道注意模块生成的特征图反馈给空间注意模块,然后空间注意模块输出特征图。但这种串行连接存在计算方式特殊的缺陷,可能导致Spatial Attention模块中权重计算不当,最终得到的feature map中会丢失通道权重信息。因此我们对CBAM Attention进行了改进,将DenseNet模块的输出特征分别输入到Channel Attention和Spatial Attention模块,在相应的位置将这两个输出的特征图相乘。通过这种方式,可以增加特征的表达力,并最大化评估后每个attention模块对特征的保留。

2.2.4.1 Channel Attention。

        考虑到feature map中的通道不同,其重要程度也不同,因此我们使用Channel Attention为每个通道计算不同的权重,其结构如图8所示。Channel Attention将feature map在空间维度上压缩成一维向量再进行操作。在空间维度上进行压缩时,Spatial Attention 同时考虑了全局平均池化和全局最大池化。对于 Channel Attention,使用全局最大池化提取每个通道特征图的最大值,而使用全局平均池化提取每个通道特征图的平均值。通道注意力首先通过两个并行的平均池化和最大池化进行聚合,以聚合特征映射的空间信息,并发送到共享的全连接神经网络(MLP)。其次,将MLP输出的两个结果逐元素相加后,使用sigmoid激活函数得到通道注意力模块的权重。最后,将这些权重乘以输入特征图,得到通道注意力模块权重的特征图。通道注意力可以表示为:

其中pooling为全局最大池化和全局平均池化,σ表示sigmoid激活函数。Y表示最终输出的特征矩阵,Mc(F)表示权重向量,F表示输入通道矩阵。

2.2.4.2 Spatial Attention。

        考虑到不同的感受域对特征图的影响程度也不同,因此我们引入了Spatial Attention来计算感受域之间的权重。Spatial Attention的结构如图9所示。Spatial Attention对通道进行了压缩,在通道维度上分别进行全局最大池化和全局平均池化。对于Spatial Attention来说,全局最大池化的操作是取出通道上每个位置的最大值,而全局平均池化的操作是取出通道上每个位置的平均值。Spatial Attention首先通过两个并行的全局最大池化和全局平均池化操作进行特征映射,并将得到的两个特征图按通道进行CONCAT。其次,经过卷积操作后降维为1通道,再通过sigmoid函数生成Spatial Attention特征图。将此特征图与 Spatial Attention 输入特征图相乘,即可得到最终的生成特征。Spatial Attention 可以表示为:

其中,pooling 为全局最大池化和全局平均池化,σ表示sigmoid激活函数。 卷积操作中使用的卷积核大小为7×7。Y表示最终输出的特征矩阵,Mc(F)表示权重向量,F表示输入通道矩阵。

2.2.5 双向门控循环单元

        双向门控循环单元(BGRU)[28]是一种循环神经网络(RNN),是传统RNN的一种变体。它能够在RNA序列预测任务中学习序列之间的长期依赖关系,减轻梯度消失或爆炸现象。图10说明了BGRU的网络结构。BGRU由前向GRU和反向GRU组成。与长短期记忆网络(LSTM)[35]相比,GRU的网络更简单,它将遗忘门和输入门合成一个称为更新门的新门。更新门控制先前的记忆信息继续保留到当前时刻的数据量。虽然少了一个门,但是参数更少,在训练数据集较大的情况下,GRU可以节省大量时间。对于一个GRU,它可以表示为:

其中,zt表示更新门,rt表示重置门,ht表示当前时刻的隐藏状态,ht−1表示前一时刻的隐藏状态。⊙表示元素乘法,σ为sigmoid激活函数,W和U为权重矩阵。

2.2.6 自注意力机制

         自注意力机制[30]是深度学习中广泛使用的一种机制,具体结构如图11所示。它其实是一种加权的方法,即给输入序列的某一部分赋予比其他部分更高的权重。可以理解为是想让机器注意到整个输入特征中不同部分之间的关​​联性,从而更好地捕捉输入特征中的信息。 自注意力机制将输入数据转换成三个向量qi、ki、vi,其中query Q作为给予者,key K作为建立关系的接受者,value V提取信息并按顺序汇总所有关系。然后,将每个输入碱基与输入序列中的所有其他碱基进行比较,确定一个分数。分数的计算方法是将query向量qi乘以key向量ki,再除以key向量维度的平方根。为了得到一个从0到1的概率值,我们将得分经过一个softmax运算,然后与每一个值向量相乘。最后对当前输入处的值向量vi进行加权求和,计算出输出向量。图12说明了自注意力机制计算的过程。加权值V的输出向量Os表示为:

其中φ是softmax函数,dk是K的维度。通过查询向量与对应向量的相关性来计算每个值向量的权重。计算方法为: qi = Wqbi ki = Wkbi vi = Wvbi wti = exp(similarity(hi, hj))Pt i=1 exp(similarity(hi, hj)) (11) 其中,Wq、Wk、Wv为参数矩阵;qi、ki、vi分别代表query、key、value向量;wti为输入向量的权重分配。

2.2.7 集成学习模块

        在机器学习中,将独立的测试数据集输入到几个相同或不同的模型中,计算多个预测结果,然后取平均。这种集成学习策略称为模型平均,其好处是各个模型在独立的测试数据集上通常不会犯相同的错误,从而提供一种非常有效的降低泛化误差的方法。本研究中的集成学习 [34] 模块是指对同一训练数据集使用相同的特征编码和模型框架方法。它正是利用了上面介绍的模型平均的思想。在本研究中,我们采用了五折交叉验证,将训练数据集分成五部分,其中四部分用于训练集,一个用于验证集,通过软投票的方法得到最终的预测结果。对于训练数据集,我们使用三个相同的网络框架,每个框架训练三次,得到三个模型。将验证数据集放入每个框架的三个模型中,得到三个概率值。将这三个概率值相加并平均得到每个框架的验证结果。如果概率值大于0.5,则识别出m5C修饰位点,否则,则相反。对于独立测试数据集,我们使用与训练数据集相同的方法。集成学习模块的具体结构如图1所示。

2.3 特征编码

        特征编码是建立预测模型的重要步骤,它将生物序列中的字母转换成计算机可以识别的数值信息。为了研究多个特征对实验的影响,我们在本研究中使用了三种特征编码方法,分别采用独热编码、核苷酸化学性质编码(NCP)和核苷酸密度编码(ND)来识别人类RNA中的m5C修饰位点,后面将详细介绍。

2.3.1 独热编码

         独热编码[36]是一种简单有效的特征编码方法,在生物信息学中得到广泛应用,将RNA分子核苷酸链中的腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和尿嘧啶(U)四种碱基表示为一个由0和1组成的二元向量。将人类RNA中m5C序列中的每个碱基转换成一个四维特征向量,其中四个碱基A、C、G、U分别用代码(1,0,0,0)、(0,1,0,0)、(0,0,1,0)、(0,0,0,1)和(0,0,0,1)表示。例如,人类RNA m5C序列UCUAU…GCGGG可以如图2所示表示。本文中的人类RNA m5C序列长度为41bp,即每个序列经该方法编码后转化为4×41的特征矩阵。

2.3.2核苷酸化学性质(NCP)编码

        近年来,核苷酸化学性质(NCP)[37]编码方法已被应用于生物信息学的许多研究中。该编码方法基于三种化学性质,是一种相对简单的编码方案。每个核苷酸都有不同的化学性质。 因此可以根据环的结构、化学结构和氢键相互作用对RNA序列进行编码。 从核苷酸所含功能基团的角度分析,A和C都含有氨基,G和U都含有酮基;从环结构的角度分析,A和G含有两个环结构,G和C只有一个环结构;从碱基互补配对的角度分析,配对时A和U通过两个氢键连接,而G和C通过三个氢键连接。将人类RNA m5C序列中每个碱基转化为三维特征向量,A,C,G和U四个碱基分别用(1, 1, 1)、(0, 1, 0)、(1, 0, 0)和(0, 0, 1)编码。本研究中人类RNA m5C序列长度为41 bp,即用此方法编码后每个序列转化为3×41的特征矩阵。

2.3.3 核苷酸密度(ND)编码

核苷酸密度(ND)[38]编码方法也是RNA序列编码方法之一,常与NCP编码方法结合使用。 其主要原理是将RNA序列样本中的一个或多个碱基作为一个元素,计算该元素在其所在样本中出现的频率。假设RNA序列样本由l个核苷酸组成,Ri为4个碱基之一,则RNA序列样本可表示为:

以计算单个核苷酸密度为例,其中Pm为RNA序列样本中第i个位置处核苷酸Ri出现的密度,计算方法表示为:

其中f(Ri)按公式计算。 14,Rm代表第m个核苷酸。

这里,我们以 RNA 中一个 41 bp 长的 m5C 序列“UCUAU...GCGGGG”为例,“A”位于位置 4、12、…、31 和 33,密度分别为¼1/4、2/12、...、3/31 和 4/33。“C”位于位置 2、6、...、36 和 38,密度分别为 1/2、2/6、...、11/36 和 12/38。“G”位于位置 8、18、...、40 和 41,密度分别为 1/8、2/18、...、12/40 和 13/41。“U”位于位置 1、3、...、27,和28,密度分别为1/1、2/3、……、11/27、12/28。 将人类RNA m5C序列中的每个碱基转化为一维特征向量。本研究中,人类RNA m5C序列的长度为41bp,这意味着使用该方法,每个序列在编码后转化为1×41的特征矩阵。我们结合独热编码、核苷酸化学性质(NCP)编码和核苷酸密度(ND)编码,将人类RNA m5C序列表示为8×41的特征矩阵,如图13所示。

2.4 性能评估

         在本研究中,我们选择了四个评估指标来评估im5C-DSCGA模型,即敏感性(Sn)、特异性(SP)、准确度(Acc)和马修相关系数(MCC),定义如公式15所示。

其中,TP、TN、FP、FN 分别表示真阳性、真阴性、假阳性、假阴性。Sn、SP 分别表示正确预测的正样本和负样本的比例。ACC表示整个样本中预测正确的比例,MCC可以准确评估模型的性能。值得注意的是,在本研究中,我们使用MCC指标来评估模型的全局性能。 此外,我们还加入了受试者工作特征曲线(ROC)[39],并计算ROC曲线下面积(AUC)来评估整体性能。AUC的取值范围是(0,1),其值与预测性能呈正相关,AUC值越接近1,模型越有效。

2.5 超参数设置说明

        为了方便与现有模型进行比较,我们使用现有模型的数据集来训练im5CDSCGA模型。在实验中,使用NVIDIA GeForce RTX 3080 Ti GPU来训练im5C-DSCGA模型的神经网络。在模型训练中,优化器使用Adam来防止损失函数陷入局部最优点。同时,我们使用交叉熵损失函数来传播梯度,并使用正则化、dropout和early stop策略来避免过拟合。此外,通过对比实验确定了最优超参数。所有参数设置和模型训练均基于Python 3.8(Elemental Security,美国德克萨斯州达拉斯,https://www.py thon.org/)和Keras 2.8.0(Google,美国加利福尼亚州山景城,https://keras.io/)实现到im5CDSCGA模型中。表3列出了im5C-DSCGA模型中的所有超参数。

3.结果与讨论

        为了具体评估im5C-DSCGA模型的性能并展示模型的改进,我们将讨论模型的三个方面,即变体、特征分析和结构分析。

3.1 模型变体

        对于模型变体,我们设计了四个模型,分别是RSCm5C模型、RGAm5C模型、DSCm5C模型和DGAm5C模型。第一个模型变体为RSCm5C模型,我们在设计时没有使用BGRU模块和Self-Attention模块,同时将DenseNet模块改为ResNet模块,与原版im5C-DSCGA模型进行对比,可以有效应对全局特征和更高级的局部特征对模型预测效果的影响。第二个模型变体称为RGAm5C模型,在设计时没有使用CBAM模块,同时将DenseNet模块改为使用ResNet模块,与原版im5C-DSCGA模型进行对比,可以有效应对重要特征和更高级的局部特征对模型预测效果的影响。第三个模型变体DSCm5C模型在原有模型结构基础上剔除BGRU模块和Self-Attention模块,可以有效应对全局特征对模型预测效果的影响。最后一个模型变体DGAm5C模型在原有模型结构基础上剔除改进的CBAM Attention模块,可以有效应对重要特征对模型预测效果的影响。四个模型变体均采用全连接神经网络进行分类。 将这四个模型变体的结构设计与原im5C-DSCGA模型进行对比,从而展示出我们模型结构的优越性。 图14详细描述了四个变体模型结构。所有模型变体都在基准数据集上进行训练,并且都使用与我们提出的im5C-DSCGA模型相同的超参数设置。

图 14. 四种变体模型的简要说明。(A)RSCm5C 模型。(B)RGAm5C 模型。(C)DSCm5C 模型。(D)DGAm5C 模型。

3.2 结构分析

3.2.1 与模型变体的比较

        为了进一步评估 im5CDSCGA 模型的性能,我们将其与基于深度学习的四个模型变体进行了比较,包括 RSCm5C、RGAm5C、DSCm5C 和 DGAm5C。通过实验比较,我们发现在深度学习框架中,DenseNet 比 ResNet 能够更好地提取更高级的局部特征。此外,注意力机制在捕捉一些关键特征和更突出的重要特征方面是有效的。

im5C-DSCGA 和四种模型变体在训练数据集上进行五重交叉验证的性能。图 16 展示了 im5C-DSCGA 和四种模型变体在独立测试数据集上的性能。 从图 15 可以看出,在训练数据集的五重交叉验证中,im5C-DSCGA 模型的四个指标 SP、Acc、MCC 和 AUC 明显优于四种模型变体。SP 分别高出 12.13%、15.16%、2.46% 和 3.22%。Acc 分别高出 7.82%、10.03%、0.25% 和 0.85%。MCC 分别高出 15.54%、18.70%、0.68% 和 1.74%。 AUC 分别高出 7.45%、9.50%、0.32% 和 0.70%。同样,在图 16 中,可以清楚地看出 im5C-DSCGA 模型的 Acc、MCC 和 AUC 在独立测试中优于所有四个模型变体。Acc 分别高出 8.87%、10.02%、0.66% 和 1.49%。MCC 分别高出 16.71%、19.22%、1.61% 和 2.46%。AUC 分别高出 7.79%、8.45%、0.53% 和 0.74%。因此,我们选择 im5CDSCGA 模型作为本研究的模型。此外,图17、18还分别展示了im5C-DSCGA模型和四个模型变体在训练数据集和独立测试数据集上的ROC图。

3.2.2 Dense Block数量和Dense Block卷积层数比较

        由于DenseNet中dense block的数量和每个dense block中的卷积层数量是影响模型性能的重要因素,本研究评估了使用不同数量的dense block和dense block中不同数量的卷积层的性能。图19展示了不同数量的dense block和不同dense block中卷积层数量的性能。可以明显看出,当使用四个卷积层构建一个dense block和将五个dense block堆叠在一起时,模型的SP、Acc和MCC指标均大于使用其他组合情况的性能。因此,在本研究中,我们选择使用四个卷积层构建一个dense block,并构建具有五个dense block的DenseNet。

3.2.3 与部分机器学习算法的比较

        为了体现深度学习算法的优越性,我们在五重交叉验证和独立测试数据集上对三种最具代表性的算法进行了比较,实验中使用了随机森林(RF)、逻辑回归(LR)和AdaBoost。这里,我们将特征编码分别输入到三种机器学习算法中,并在表4、5中展示了实验结果。三种机器学习算法的Sn、SP、ACC和AUC都在0.5左右,虽然MCC很低。这表明我们构建的深度学习模型比机器学习模型表现更好。

3.2.4 与现有预测器的比较

        为了进一步评估im5CDSCGA模型的性能,我们将其与现有最先进的计算方法Deepm5C模型进行了比较,以识别人类RNA序列中的m5C位点。在这里,为了提供公平的性能比较,我们使用与Deepm5C模型相同的五重交叉验证和独立测试来评估性能。 im5C-DSCGA模型的表现优于Deepm5C模型,进一步说明了我们提出的im5CDSCGA模型具有更好的泛化能力。 表6展示了im5CDSCGA模型与现有预测方法Deepm5C模型在训练数据集上五倍交叉验证的性能。表7展示了im5C-DSCGA模型与现有预测方法Deepm5C模型在独立测试数据集上的性能。 在训练数据和五倍交叉验证中,im5C-DSCGA模型的SP和MCC优于Deepm5C。同样,在独立测试中,im5CDSCGA模型的SP、Acc和MCC分别比im5C-DSCGA模型高出5.1%、0.7%和3.0%。这一结果表明im5C-DSCGA模型在RNA修饰位点预测任务中具有很强的潜力。 此外,我们还使用来自 iRNA-PseColl 模型的 240 个智人样本对我们的 im5C-DSCGA 模型进行了迁移学习模型测试 [40]。我们的模型在 SP、Acc 和 MCC 指标上的得分分别为 59.2%、75.4% 和 53.8%,尽管略有下降,这可能是由于两个基准数据集涉及不同的组织和细胞类型。在 Sn 指标上,它高出 15.9%,达到 91.7%。然而,作为迁移学习模型,我们的模型在预测智人样本方面仍然表现出良好的效果。有关 m5C 位点预测方法的更多信息,可从综述 [31] 中探索。

3.2.5 im5C-DSCGA模型性能

         在本文提出的im5C-DSCGA模型中,图20展示了模型在训练数据集上进行五折交叉验证的性能。可以清楚的看到,五折交叉验证的每一折性能都比较稳定。此外,图21展示了im5C-DSCGA模型在训练数据集上进行五折交叉验证和独立测试的ROC曲线图。这一结果进一步凸显了im5C-DSCGA模型的稳定性和可靠性。

3.3 各种特征编码方法的特征对比分析

        利用本文提出的im5C-DSCGA网络框架,我们比较了五种不同的特征编码方法的性能,包括one-hot,onehot + NPF,one-hot + ND,NPF + ND和one-hot + NPF + ND。他们分别将RNA序列编码成4×41、7×41、5×41、4×41和8×41的特征矩阵。随后,将这五个编码生成的特征矩阵输入到im5C-DSCGA网络框架中,在五倍交叉验证和独立测试上的实验结果分别如图22所示。 可以明显看出,one-hot、one-hot + NPF、one-hot + ND和onehot + NPF + ND四种特征编码方法的性能明显优于NCP + ND特征编码。然而,就MCC性能评估指标而言,one-hot + NPF + ND组合的特征编码优于其他组合的特征编码。因此,我们采用one-hot + NPF + ND特征编码作为im5C-DSCGA网络框架的最终特征编码方法。

4. 结论

        在本研究中,我们设计了一个基于深度学习的新型模型im5C-DSCGA来准确识别人类RNA中的m5C修饰位点。im5C-DSCGA模型的主要创新在于以下三个方面。首先,我们使用改进的DenseNet方法和CBAM Attention机制作为高级局部特征提取器。其次,我们使用BGRU方法来捕捉高级局部特征的长期依赖关系,并使用Self-Attention来提取全局特征。最后,我们使用集成学习方法使im5C-DSCGA模型具有更好的泛化能力。从实验结果的指标来看,本研究提出的深度学习im5CDSCGA模型获得了令人满意的预测结果。在独立测试中MCC指标达到72.1%,比目前最先进的Deepm5C模型预测方法高出3.0%。总体而言,im5C-DSCGA 模型比 Deepm5C 模型取得了更准确和更稳定的性能,这进一步证明了我们模型的有效性。 im5C-DSCGA 模型的完成将有助于研究人员更好地识别人类 RNA 中的 m5C 修饰位点。此外,我们将在后续研究中扩展这项工作,尝试使用 BERT 方法和 Transformer 模型以及深度学习构建网络框架。未来,我们会考虑构建一个服务器网络,这可以提供很多便利。此外,im5C-DSCGA 模型的所有数据集和源代码都可以在 https://github.com/lulukoss/im5C-DSCGA 免费获取。

  • 24
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值