论文解读《TS-m6A-DL：使用通用深度学习模型对n6-甲基腺苷位点进行组织特异性识别》

本文链接：https://blog.csdn.net/qq_53674802/article/details/122749176

摘要

最常见的转录后修饰，n6-甲基腺苷(m6a)，与许多关键的生物过程有关。精确检测基因组周围的m6a位点对于揭示其调控功能和为药物设计提供新的见解至关重要。虽然已经引入了检测m6a位点的实验和计算模型，但这些传统的方法是费力和昂贵的。此外，这些模型中只有少数模型能够检测到各种组织中的m6a位点。因此，需要一种更通用和优化的计算方法来检测不同组织中的m6a位点。在本文中，我们提出了一种基于深度神经网络(DNN)的通用模型，并将其命名为TS-m6A-DL，该模型可以对人类（智人）、小鼠（小家鼠）和大鼠（褐家鼠）的多个组织中的m6a位点进行分类。为了提取RNA序列特征并将输入转换为网络的数值格式，我们采用了单热编码的方法。该模型采用5倍交叉验证，并采用独立数据集进行其稳定性测量。该模型TS-m6A-DL采用5倍交叉验证方法的准确率为75-85%，对独立数据集的准确率为72-84%。最后，为了验证模型的泛化性，我们进行了跨物种测试，并通过获得最先进的结果证明了其泛化能力。
2021作者。由爱思唯尔公司代表计算和结构生物技术研究网络出版。这是CCBY-NC-ND许可(http://creativecommons.org/licenses/by-nc-nd/4.0/).下的一篇开放获取文章。

1、介绍

转录后RNA修饰是存在于所有生物体中，[1]。随着RNA经历转录后转化，生物学知识的复杂性和调控的均匀性也会增加。已经发现了超过150种不同类型的RNA翻译后修饰，其中甲基化占其中[2]的三分之二。n6-甲基腺苷(m6a)修饰是一种典型且慷慨的转录后RNA修饰，它影响了几乎所有的细胞周期过程，包括翻译效率、细胞生长和细胞活力[3–8]。这表明了腺苷碱基在氮-6位置的甲基化。此外，m6a修饰是一个可逆的过程，可由甲基转移酶和去甲基化酶[9–11]触发。研究表明，m6a与甲状腺肿瘤[12]、前列腺癌[13]、肥胖[14]和急性髓系性白血病[15]等疾病的发生有关。m6a是一种常见的转录修饰，它可能发生在各种物种中，如哺乳动物、植物和细菌[16]。研究表明，m6a在mRNA代谢[17]的每个阶段都起着调节因子的作用。这值得对m6a修饰进行广泛的研究，然而，我们目前对m6a修饰的知识仍然有限。因此，广泛研究m6a，正确确定m6a在转录组中的修饰位点至关重要。
m6a位点可以通过两种主要方法进行识别。第一种是实验技术，包括甲基化RNA免疫沉淀(MeRIP)[18]，光交叉墨水辅助(PA)-m6A-seq[19]、m6A测序(m6A-seq)[20]、m6氨联免疫沉淀(CLIP)[21]、单核苷酸分辨交联和免疫沉淀(miCLIP)[22]、DART-seq[23]、MAZTER-Seq[24]和m6A-eCLIP(meCLIP)[25]。这些实验方法为识别潜在的m6a修饰位点提供了一个布局。此外，一些生物信息学技术，能够直接从实验技术收集的数据中发现m6a位点的[26–28]。然而，收集到的测序数据已经太大了，无法用基本的生物信息学技术来提供服务；因此，需要更有效的技术来识别转录组中的m6a位点。识别m6a位点的第二种方法是将计算技术应用于测序数据近年来，利用基因表达的空间特异性进行的研究发现，m6a修饰的位点在不同的组织和物种中存在差异。Doa等人，[29]提出了一种名为iRNA-m6A的技术，该技术可以使用支持扇区机(SVM)检测人类、小鼠和大鼠各种组织中的m6a修饰位点，该技术应用于Zhang等人，[30]提供的数据集。该方法显著提高了m6a修饰位点的准确性。然而，在检测m6a位点的技术上仍有很大的改进空间。
近年来，深度学习模型对生物信息学领域的影响并不显著。人们提出了各种包含深度学习技术的计算方法，包括Gene2Vec[31]、DeepM6ASeq[32]、BERMP[33]、DNA6mA-MINT[34]、pc启动子-CNN[35]、4mCPred-CNN[36]、im6A-TS-CNN[37]和iPseU-CNN[38]。Liu等人在im6A-TS-CNN中提出了一种基于CNN的解决方案，该解决方案利用单热编码技术对数据样本进行编码，然后利用智人、褐家鼠和小家鼠的数据集，使用CNN架构对数据进行分类。Dao等人提出了一种基于SVM的机器学习模型，在同一数据集上对m6a站点进行分类。他们使用了各种编码方案，包括单核苷酸二进制编码、物理化学性质矩阵和核苷酸化学性质。
基于以上研究，目前的研究重点是建立一种能够检测人类、小鼠和大鼠组织中m6a修饰位点的计算方法。为了基于Zhang等人，[30]进行的实验分析创建一个基准数据集，我们首先编译了经过实验验证的m6a和非m6a序列。为了表示样本，只使用了单一编码方案，一个热编码。随着深度学习算法实现的不断发展，我们提出了一种基于cnn的通用方法，称为TS-m6A-DL。通过5倍交叉验证和独立测试显示，TS-m6A-DL的性能优于目前最先进的方法。此外，跨物种验证测试证明了我们的模型的稳定性，达到了最先进的结果。

2、材料和方法

2.1 基准数据集

训练高效计算模型的一个重要步骤是构建高质量的数据集。Zhang等人，[30]生产了一种有效的与抗体无关的m6a检测工具m6a-refseq，用于分类智人、小家鼠和褐家鼠的脑、肝、肾、心的改变部位和睾丸。考虑到这些数据的优秀水准，我们使用它们开发了基准数据集。为了进一步提高数据的完整性，我们只使用了长度为41个核苷酸(nt)且中间有m6a位点的阳性序列。样本序列重复重复度超过80%使用CD-HIT软件[39]消除空白，以防止重复和消除同源性偏倚。经实验证明，上述组织的阴性序列是非甲基化的，它们是通过满足中心含有腺氨酸的41nt长度的要求来提取的。它们显示了m6a的共识基序，但在对m6a的分析中没有富集。由于一个不平衡的数据集对一类[40]复制了偏差，因此检索到等于正序列数量的随机负序列。将数据集分为训练数据集和独立数据集，批判性地分析模型的性能和泛化性。当该技术适用于独立数据集[29]时，存在最小过拟合。表1列出了每个数据集中的正序列和负序列的具体细节。
在这里插入图片描述

2.2.序列编码

在神经网络中，使用有效的编码方案使网络的序列具有可读性是直接影响模型性能的首要前提。单次编码是一种广泛使用的编码方案，可以准确地将核苷酸表示为四维二进制向量。我们可以这样表示核苷酸：
在这里插入图片描述

2.3.网络架构

输入层、几个中间隐藏层和输出层包括神经网络。在将序列转换为数字格式以使其对网络可读之后，输入层接收41x4矩阵作为输入。所提出的网络架构如图1所示。输入矩阵被输入到第一个卷积层，其中有64个滤波器，核大小为3，步幅为1。dnn中的特征映射的数量与网络的深度相乘，当使用更大的内核大小时，参数的数量和计算需求急剧增加。因此，这个卷积层之后是另一个卷积层，其中16个滤波器具有单位核大小和相同的步幅。这个概念是由Lin等人在他们的网络研究[41]中提出的。本研究使用了这种特殊的策略，通过减少特征图的数量，同时保留最重要的特征，而忽略没有贡献的特征来降维。卷积层的数学表示如下：
在这里插入图片描述
其中“X”表示输入，“i”表示输出位置索引，“k”决定内核索引。Wk是一个MN的权值矩阵，其中“M”是窗口大小，“N”是输入通道的数量。然后，这一层之后是一个池大小为2的最大池化层，以向下采样特征图的内容，缩小它们的高度和宽度，同时保留它们的显著特征。它可通过以下等式进行数学计算：
在这里插入图片描述
其中，“X”表示输入特征映射，“i”表示输出位置索引，“k”表示内核索引，“M”表示池窗口大小。

**为了避免过拟合偏差，我们使用了一个缺失率为0.6的辍学函数。退出后的输出被压平，并同时作为输入输入到另一个卷积层，重复上述相同的过程，再重复两次。每个块后的三个扁平输出被连接并作为输入输入到包含16个节点的密集层，然后是输出层这决定了序列是甲基化还是非甲基化。包括密集层在内的每个卷积层都使用一个整流的线性函数(ReLU)作为激活函数，除了输出层使用s型函数进行分类。ReLU和s型可以用数学表示如下：
在这里插入图片描述
**

在这里插入图片描述
我们进一步使用l2正则化方法来处理核和卷积层内的偏差，以防止过拟合，将速率设置为0.001。采用学习速率为0.0021的Nesterov加速自适应矩估计)优化器，构建了伴随二元交叉熵的损失函数模型。最大训练历元设置为50，训练批处理大小设置为32。此外，在训练阶段，我们还使用了早期停止策略，如果验证集上的预测精度在10个时期停止提高，训练过程就会停止。

3.评价指标

k倍交叉验证和独立检验被广泛用于评估模型的性能。为了分析模型的有效性和稳健性，我们对我们的模型进行了上述两个测试，在我们的模型中定义了K等于5。为了客观地评估分析的结果，并与以前的最先进的方法进行无偏性的比较，我们使用了同样广泛使用的指标，包括敏感性(Sn)、特异性(Sp)、准确性(ACC)和Matthews相关系数(MCC)。
在这里插入图片描述
其中，TP、TN、FP和FN分别代表真阳性、真阴性、假阳性和假阴性的数量。此外，我们还使用了曲线下面积(AUC)，这是评估模型预测性能的一个有用的指标。

4.结果和讨论

基于材料和方法中定义的数据，我们开发了一个关于m6a站点分类的广义模型。为了证明该模型的稳定性，以便对人类、小鼠和大鼠的组织特异性m6a修饰进行分类；我们进行了5倍交叉验证和独立测试，并制定了设计方案结果见表2。当将5倍交叉验证和独立测试的结果与现有的最先进的模型进行比较时，所提出的方法被发现是稳健的。

4.1.与现有方法的比较

为了验证我们的模型，我们使用了与验证iRNA-m6A[29]和m6A-TS-CNN[37]时相同的验证方法，保留相同的折叠数，以获得更好的比较研究。图中的数据。2a和2b显示了通过5倍交叉验证和独立检验确定的准确性方面的比较结果。在独立数据集上的高精度意味着该模型具有识别未知序列的m6a位点的能力。使用所有5个评价矩阵进行完整的比较；表S1和表S2分别显示了ACC、Sn、Sp、MCC和AUC，分别进行了5倍交叉验证和独立检验。

4.2.跨物种测试

由于这些数据集来自不同的生物体和组织，因此观察对一个物种特定组织样本进行训练的模型如何识别另一个物种同一组织中的m6a是有用的。因此，对于不同物种的相同组织，我们采用了跨物种测试，并在图中提供了准确性。脑、肾和肝脏分别为3a、3b和3v。x轴表示我们训练模型的数据集，y轴表示我们测试模型的数据集。结果表明，该工具TS-m6A-DL对m6a位点具有跨物种分类测试的能力，证明了其普遍性。使用相同的五种评价矩阵的完整结果如表S3所示。

4.3.基序分析

基序是从第一个激活层[42]中计算出来的。每个输入序列在第一层产生相应的激活图，我们从中选择最大激活。这个最大激活被映射回输入序列，以选择一个具有过滤器大小长度的子序列。从每个过滤器中选择的子序列被对齐，并使用位置权重矩阵(PWM)技术[43]来寻找主题。在第一层使用64个过滤器生成了多个主题。然后，我们将这些基序与生物学报道的基序[30]进行了比较。我们发现我们的模型检测到的ACA基序与Zhang等人，[30]报道的模型有强匹配。图4显示了我们的模型检测到的主题，其中第一个A是假定的m6a。
在这里插入图片描述

图3。跨物种测试。这里，x轴和y轴上的h、m和r代表了人类、老鼠和大鼠的物种。

图4。由我们的模型TS-m6A-DL检测到的aca-motif。

5.结论

由于m6a参与了多种生物过程，精确检测m6a位点对于科学研究了解其调控功能和获得对药物设计的各种见解至关重要。在这项研究中，我们提出了TS-m6A-DL，这是一种基于挖掘学习的通用模型，用于检测人类、小鼠和大鼠各种组织中的m6a位点。为了验证我们的模型，我们进行了5倍交叉验证和独立测试，所获得的结果表明，TS-m6A-DL工具比以前的最先进的工具的性能更好。开发了一个基于web的服务器，并在http://nsclbio.jbnu.ac上提供。为研究界的利益。我们希望新的框架将有助于检测m6a位点和促进药物开发。