IM6A-TS-CNN:用卷积神经网络识别多个组织中的N6-甲基腺嘌呤位点

im6A-TS-CNN是一种基于卷积神经网络的方法,用于识别不同组织(人、小鼠和大鼠的脑、肝、肾等)中的N6-甲基腺嘌呤(m6A)位点。该模型在5次交叉验证和独立数据集测试中表现出优于现有方法的性能,且在识别m6A位点上具有高稳定性和可靠性。代码和资源可在GitHub上获取。
摘要由CSDN通过智能技术生成

《im6A-TS-CNN: Identifying the N6-Methyladenine Site in Multiple Tissues by Using the Convolutional Neural Network》

Paper_Info

  • 作者: 刘克维 曹磊 杜普峰 陈伟教授
  • 单位:华北理工大学生命科学学院
  • 发表于 《Molecular Therapy-Nucleic Acids》
  • 在线时间:2020年7月31日
    paper
    code(命令版本)
    报道链接

一、文章核心内容:

  • 检测m6A意义:
    检测m6A位点对于揭示其生物学功能及其对疾病的影响非常重要。
  • 现有问题:
    虽有实验、计算m6A方法(iRNA-m6A:性能具有提高潜能),但少有方法能在不同的组织中检测到m6A位点。

数据集:
Zhang等人的基准数据集
DAO等人论文工具网站,及数据集下载
模型、方法:im6A-TS-CNN(基于CNN,Python3.6、TensorFlow2.0、Keras)
在这里插入图片描述
模型训练:

  • 损失函数:绝对交叉熵; 训练:2000 epochs;

  • 早停:patience 50,最小增量为0.001。、

  • RNA编码方式:ont-hot;

  • 基线对比模型:iRNA-m6A model。

  • 评价指标:sn、sp、acc、mcc、ROC(receiver operating
    characteristic)、AUC(areas under the ROC curve):0.8 评价方法:5倍交叉验证、独立检验。

结果:
5次交叉验证测试和独立数据集测试的结果表明,im6A-TSCNN 在相同目标下优于或可比现有方法。
优点: 实现不同组织m6A检测
人:脑,肝和肾;
小鼠:脑,肝,心脏,睾丸和肾脏;
大鼠:脑,肝,和肾脏)
效果在这里插入图片描述

二、原文翻译:

N6-甲基腺苷(M6A)是含量最丰富的转录后修饰,涉及一系列重要的生物学过程。因此,准确检测m6A位点对于揭示其生物学功能及其对疾病的影响非常重要。虽然已经提出了实验和计算方法来识别m6A位点,但很少有方法能够在不同的组织中检测到m6A位点。考虑到m6A修饰的空间特异性,有必要开发能够检测m6A差异组织的方法,本文利用卷积神经网络(CNN)提出了一种新的方法,称为im6A-TS-CNN,可以识别以鉴定人(脑,肝和肾),小鼠(脑,肝,心脏,睾丸和肾脏)和大鼠(脑,肝,和肾脏)中的m6A位点。在im6A-TS-CNN中,样本采用One-hot码方案进行编码。5次交叉验证检验和独立数据集检验的结果表明,IM6A-TS-CNN在相同的目的下优于现有的方法。命令行版本的im6A-TS-cnn可在https://github.com/liukeweiaway/DeepM6A_cnn获得。

INTRODUCTION

作为一种常见且丰富的RNA转录后修饰(PTM),N6-甲基腺苷(M6A)修饰几乎在细胞周期的所有过程中都发挥着重要作用,如影响翻译效率、细胞发育、细胞存活等。M6A由含有METTL3、METTL14和WTAP的甲基转移酶复合物催化。作为一种动态的PTM,m6A可以被去甲基化酶FTO和ALKBH5清除。近年来,越来越多的研究表明,m6A与肥胖、甲状腺肿瘤、前列腺癌、zika病毒、和急性髓系白血病等疾病密切相关。为了深入理解对m6A功能的认识,关键是要了解m6A在转录本中的确切位置。

识别m6A位点的方法主要有两种。一种是采用甲基化RNA免疫沉淀、m6A测序(m6A-seq)、光交联辅助(PA)-m6A-seq,m6A交联免疫沉淀(CLIP)等实验方法。这些实验方法为m6A修饰位点的检测奠定了重要基础。因此,一些生物信息学工具被提出,它们能够直接从实验产生的读数中检测m6A位点。然而,随着测序数据量的增加,我们需要找到一种有效和高效的方法来检测转录组中的m6A。因此,提出了基于序列信息的计算方法来识别m6A位点。这些方法可以在最近的综述中提出质疑。随着对基因表达的空间特异性的研究,已经发现m6A位点的位置区别不同组织和物种。因此,Dao等人在张等人数据的基础上,利用支持向量机的算法,提出了一种名为iRNA-m6A的工具,可以识别人类,小鼠和大鼠不同组织中的m6A修饰位点。该方法大大提高了M6A位点预测的准确性。然而,预测m6A位点的性能仍有很大的提高潜力。

近年来,深度学习算法在生物信息学领域做出了巨大贡献。目前已经提出了大量基于深度学习算法的计算方法,如Gene2Vec、BERMP、DeepM6ASeq、和IPseU-CNN等。受深度学习算法在RNA修饰识别中的成功应用的启发,在本工作中,我们提出了一种基于卷积神经网络(CNN)的方法,称为im6ATS-CNN,用于识别人、小鼠和大鼠不同组织中的m6A位点。5次交叉验证测试和独立数据集测试的结果表明,im6A-TSCNN 在相同目标下优于或可比现有方法。此外,还通过跨种验证试验证明了im6A-TS-CNN的普适性。IM6A-TS-CNN的框架如图1所示。
在这里插入图片描述
图1.IM6A-TS-CNN的框架第一步是从人、小鼠和大鼠身上收集特定于组织的m6A数据。第二步是使用One-Hot方案对序列进行编码。第三步是模型构建

RESULTS AND DISCUSSION

Model Performance

本文使用Python3.6下的Kerasin TensorFlow2.0进行预测。用于识别人、小鼠和大鼠组织特异性m6A修饰位点的5次交叉验证试验和独立数据集检验的结果如表1所示。通过与5次交叉验证独立试验的结果进行比较,发现所提出的方法对于识别m6A位点是稳定的。
在这里插入图片描述

为了客观地衡量所提方法的性能,图2中还绘制了5次交叉验证测试和独立测试的接收器工作特性(ROC)曲线。结果表明,ROC曲线下面积(AUC)在5倍交叉验证试验和独立试验中均大于0.8,证明了该方法识别组织特异性m6A位点的可靠性。
在这里插入图片描述

Comparison with Existing Method

为了进一步验证im6A-TS-CNN模型的优越性,我们在5次交叉验证检验和独立检验的基础上,将其与张等人的iRNA-m6A模型进行了性能比较。表2显示了AUC的比较结果。除了从小鼠和大鼠脑中识别m6A位点外,im6A-TS-CNN在识别人、小鼠和大鼠其他组织中的m6A位点方面优于iRNA-m6A。这些结果表明im6A-TS-CNN是鉴定不同物种组织特异性m6A位点的有力工具。
在这里插入图片描述

Cross-Species and Cross-Tissue Validation

由于数据集来自不同的物种和组织,因此有趣的是,根据一个物种中特定组织的数据训练的模型是否能够将m6A与其他组织和物种区分开来。因此,进行了跨物种和跨组织的评价。Im6A-TS-CNN用于从其他物种和组织中识别m6A位点的AUC如图3所示。
在这里插入图片描述

Conclusions

在这篇文章中,我们提出了一种基于CNN的方法,称为I6mA-TSCNN,用于识别人、小鼠、和大鼠中脑、肝、肾、心脏和睾丸中的m6A,而不是现有的组织特异性m6A的识别方法。为了方便科学界,提供了i6mA-TS-cnn的命令行版本及其源代码和用户手册i6mA-TS-cnn。此外,还提供了高阈值、正常阈值和低阈值选项来控制假阳性率。表S1列出了具有不同选项的相应性能。综上所述,我们希望i6mA-TS-CNN能成为识别m6A站点的有用工具。
在这里插入图片描述

材料和方法

Datasets

高质量的数据集对于计算模型的构建是非常重要的。2019年,Zhang等人开发了一种基于m6A敏感RNA内切酶的高通量、抗体无关的m6A检测方法,以确定人、小鼠和大鼠不同组织(即脑、肝、肾、心脏和睾丸)中的m6A位点。基于这些数据,DAO等人构建了一个高质量的基准数据集,该数据集可用于训练识别m6A位点的计算方法,其包含长度为41个核苷酸的包含m6A位点和非m6A位点的序列。使用CD-HIT程序确保数据集的序列相似性小于80%。表3提供了该数据集的详细信息。

DAO等人论文,以及数据集描述
Zhang等人的基准数据集
在这里插入图片描述

One-Hot Encoding

根据这样的方案,在RNA片段中,A表示为(1,0,0,0),U表示为(0,1,0,0)、C 表示为(0,0,1,0)和G (0,0,0,1)。因此,
长度为l的RNA序列转换成4-l维向量。

Convolutional Neural Network

近年来,卷积神经网络(CNN)被广泛应用于解决生物学问题。22、27、28卷积神经网络的结构如图1所示。它包含一个具有200个滤波器的卷积层,其中核大小为6。经过卷积运算后,添加了大小为4的最大池层。卷积层的数学表示和计算如下:
在这里插入图片描述
其中R表示RNA片段,f表示核的索引,j表示输出位置的索引。在等式1中,每个滤波器 W f \mathrm{W}^{f} Wf都是SXN个权重矩阵,其中S是滤波器大小,以及N是输入通道。校正后的线性函数(RELU)表示如下: ReLU ⁡ ( z ) = { z  if  z ≥ 0 0  if  z < 0 \operatorname{ReLU}(z)=\left\{\begin{array}{l}z \text { if } z \geq 0 \\ 0 \text { if } z<0\end{array}\right. ReLU(z)={ z if z</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值