IM6A-TS-CNN：用卷积神经网络识别多个组织中的N6-甲基腺嘌呤位点

最新推荐文章于 2023-03-07 16:35:44 发布

Good_Ly

最新推荐文章于 2023-03-07 16:35:44 发布

阅读量827

点赞数

文章标签：机器学习 tensorflow 深度学习神经网络

本文链接：https://blog.csdn.net/LIYUO94/article/details/109492159

版权

im6A-TS-CNN是一种基于卷积神经网络的方法，用于识别不同组织（人、小鼠和大鼠的脑、肝、肾等）中的N6-甲基腺嘌呤（m6A）位点。该模型在5次交叉验证和独立数据集测试中表现出优于现有方法的性能，且在识别m6A位点上具有高稳定性和可靠性。代码和资源可在GitHub上获取。

摘要由CSDN通过智能技术生成

《im6A-TS-CNN: Identifying the N6-Methyladenine Site in Multiple Tissues by Using the Convolutional Neural Network》

Paper_Info

作者：刘克维曹磊杜普峰陈伟教授
单位：华北理工大学生命科学学院
发表于《Molecular Therapy-Nucleic Acids》
在线时间：2020年7月31日
paper
code（命令版本）
报道链接

一、文章核心内容：

检测m6A意义：
检测m6A位点对于揭示其生物学功能及其对疾病的影响非常重要。
现有问题：
虽有实验、计算m6A方法（iRNA-m6A：性能具有提高潜能），但少有方法能在不同的组织中检测到m6A位点。

数据集：
Zhang等人的基准数据集
 DAO等人论文工具网站，及数据集下载
模型、方法：im6A-TS-CNN（基于CNN，Python3.6、TensorFlow2.0、Keras）
在这里插入图片描述
模型训练：

损失函数：绝对交叉熵；训练：2000 epochs；
早停：patience 50，最小增量为0.001。、
RNA编码方式：ont-hot；
基线对比模型：iRNA-m6A model。
评价指标：sn、sp、acc、mcc、ROC（receiver operating
characteristic）、AUC（areas under the ROC curve）：0.8 评价方法：5倍交叉验证、独立检验。

结果：
5次交叉验证测试和独立数据集测试的结果表明，im6A-TSCNN 在相同目标下优于或可比现有方法。
优点： 实现不同组织m6A检测
人：脑，肝和肾；
小鼠：脑，肝，心脏，睾丸和肾脏；
大鼠：脑，肝，和肾脏）
效果在这里插入图片描述

二、原文翻译：

N6-甲基腺苷(M6A)是含量最丰富的转录后修饰，涉及一系列重要的生物学过程。因此，准确检测m6A位点对于揭示其生物学功能及其对疾病的影响非常重要。虽然已经提出了实验和计算方法来识别m6A位点，但很少有方法能够在不同的组织中检测到m6A位点。考虑到m6A修饰的空间特异性，有必要开发能够检测m6A差异组织的方法，本文利用卷积神经网络(CNN)提出了一种新的方法，称为im6A-TS-CNN，可以识别以鉴定人（脑，肝和肾），小鼠（脑，肝，心脏，睾丸和肾脏）和大鼠（脑，肝，和肾脏）中的m6A位点。在im6A-TS-CNN中，样本采用One-hot码方案进行编码。5次交叉验证检验和独立数据集检验的结果表明，IM6A-TS-CNN在相同的目的下优于现有的方法。命令行版本的im6A-TS-cnn可在https://github.com/liukeweiaway/DeepM6A_cnn获得。

INTRODUCTION

作为一种常见且丰富的RNA转录后修饰(PTM)，N6-甲基腺苷(M6A)修饰几乎在细胞周期的所有过程中都发挥着重要作用，如影响翻译效率、细胞发育、细胞存活等。M6A由含有METTL3、METTL14和WTAP的甲基转移酶复合物催化。作为一种动态的PTM，m6A可以被去甲基化酶FTO和ALKBH5清除。近年来，越来越多的研究表明，m6A与肥胖、甲状腺肿瘤、前列腺癌、zika病毒、和急性髓系白血病等疾病密切相关。为了深入理解对m6A功能的认识，关键是要了解m6A在转录本中的确切位置。

识别m6A位点的方法主要有两种。一种是采用甲基化RNA免疫沉淀、m6A测序(m6A-seq)、光交联辅助（PA)-m6A-seq，m6A交联免疫沉淀(CLIP)等实验方法。这些实验方法为m6A修饰位点的检测奠定了重要基础。因此，一些生物信息学工具被提出，它们能够直接从实验产生的读数中检测m6A位点。然而，随着测序数据量的增加，我们需要找到一种有效和高效的方法来检测转录组中的m6A。因此，提出了基于序列信息的计算方法来识别m6A位点。这些方法可以在最近的综述中提出质疑。随着对基因表达的空间特异性的研究，已经发现m6A位点的位置区别不同组织和物种。因此，Dao等人在张等人数据的基础上，利用支持向量机的算法，提出了一种名为iRNA-m6A的工具，可以识别人类，小鼠和大鼠不同组织中的m6A修饰位点。该方法大大提高了M6A位点预测的准确性。然而，预测m6A位点的性能仍有很大的提高潜力。

近年来，深度学习算法在生物信息学领域做出了巨大贡献。目前已经提出了大量基于深度学习算法的计算方法，如Gene2Vec、BERMP、DeepM6ASeq、和IPseU-CNN等。受深度学习算法在RNA修饰识别中的成功应用的启发，在本工作中，我们提出了一种基于卷积神经网络(CNN)的方法，称为im6ATS-CNN，用于识别人、小鼠和大鼠不同组织中的m6A位点。5次交叉验证测试和独立数据集测试的结果表明，im6A-TSCNN 在相同目标下优于或可比现有方法。此外，还通过跨种验证试验证明了im6A-TS-CNN的普适性。IM6A-TS-CNN的框架如图1所示。
在这里插入图片描述
图1.IM6A-TS-CNN的框架第一步是从人、小鼠和大鼠身上收集特定于组织的m6A数据。第二步是使用One-Hot方案对序列进行编码。第三步是模型构建

RESULTS AND DISCUSSION

Model Performance

本文使用Python3.6下的Kerasin TensorFlow2.0进行预测。用于识别人、小鼠和大鼠组织特异性m6A修饰位点的5次交叉验证试验和独立数据集检验的结果如表1所示。通过与5次交叉验证独立试验的结果进行比较，发现所提出的方法对于识别m6A位点是稳定的。
在这里插入图片描述

为了客观地衡量所提方法的性能，图2中还绘制了5次交叉验证测试和独立测试的接收器工作特性(ROC)曲线。结果表明，ROC曲线下面积(AUC)在5倍交叉验证试验和独立试验中均大于0.8，证明了该方法识别组织特异性m6A位点的可靠性。
在这里插入图片描述

Comparison with Existing Method

为了进一步验证im6A-TS-CNN模型的优越性，我们在5次交叉验证检验和独立检验的基础上，将其与张等人的iRNA-m6A模型进行了性能比较。表2显示了AUC的比较结果。除了从小鼠和大鼠脑中识别m6A位点外，im6A-TS-CNN在识别人、小鼠和大鼠其他组织中的m6A位点方面优于iRNA-m6A。这些结果表明im6A-TS-CNN是鉴定不同物种组织特异性m6A位点的有力工具。
在这里插入图片描述

Cross-Species and Cross-Tissue Validation

由于数据集来自不同的物种和组织，因此有趣的是，根据一个物种中特定组织的数据训练的模型是否能够将m6A与其他组织和物种区分开来。因此，进行了跨物种和跨组织的评价。Im6A-TS-CNN用于从其他物种和组织中识别m6A位点的AUC如图3所示。
在这里插入图片描述

Conclusions

在这篇文章中，我们提出了一种基于CNN的方法，称为I6mA-TSCNN，用于识别人、小鼠、和大鼠中脑、肝、肾、心脏和睾丸中的m6A，而不是现有的组织特异性m6A的识别方法。为了方便科学界，提供了i6mA-TS-cnn的命令行版本及其源代码和用户手册i6mA-TS-cnn。此外，还提供了高阈值、正常阈值和低阈值选项来控制假阳性率。表S1列出了具有不同选项的相应性能。综上所述，我们希望i6mA-TS-CNN能成为识别m6A站点的有用工具。
在这里插入图片描述

材料和方法

Datasets

高质量的数据集对于计算模型的构建是非常重要的。2019年，Zhang等人开发了一种基于m6A敏感RNA内切酶的高通量、抗体无关的m6A检测方法，以确定人、小鼠和大鼠不同组织(即脑、肝、肾、心脏和睾丸)中的m6A位点。基于这些数据，DAO等人构建了一个高质量的基准数据集，该数据集可用于训练识别m6A位点的计算方法，其包含长度为41个核苷酸的包含m6A位点和非m6A位点的序列。使用CD-HIT程序确保数据集的序列相似性小于80%。表3提供了该数据集的详细信息。

DAO等人论文，以及数据集描述
 Zhang等人的基准数据集
在这里插入图片描述

One-Hot Encoding

根据这样的方案，在RNA片段中，A表示为(1，0，0，0)，U表示为(0，1，0，0)、C 表示为(0，0，1，0)和G (0，0，0，1)。因此，
长度为l的RNA序列转换成4-l维向量。

Convolutional Neural Network

近年来，卷积神经网络(CNN)被广泛应用于解决生物学问题。22、27、28卷积神经网络的结构如图1所示。它包含一个具有200个滤波器的卷积层，其中核大小为6。经过卷积运算后，添加了大小为4的最大池层。卷积层的数学表示和计算如下：
在这里插入图片描述
其中R表示RNA片段，f表示核的索引，j表示输出位置的索引。在等式1中，每个滤波器 $\mathrm{W}^{f}$ 都是SXN个权重矩阵，其中S是滤波器大小，以及N是输入通道。校正后的线性函数(RELU)表示如下： $\operatorname{ReLU}(z)=\left\{\begin{array}{l}z \text { if } z \geq 0 \\ 0 \text { if } z<0\end{array}\right.$