论文解读
Deep6mA: A deep learning framework forexploring similar
patterns in DNA N6-methyladenine sites across different species
Deep6mA:探索不同物种DNA N6甲基腺嘌呤位点相似模式的深度学习框架
文章地址:https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1008767
DOI:https://doi.org/10.1371/journal.pcbi.1008767
代码:https://github.com/Marscolono/Deep6mA
LSTM:https://blog.csdn.net/yingqubaifumei/article/details/100888147
目录
1.摘要
N6-甲基腺嘌呤(6mA)是一种重要的DNA修饰方式,在基因组水平上准确识别6 mA位点对于理解6 mA的生物学功能至关重要。然而,现有的探测6 mA位点的实验技术是成本低的,这意味着迫切需要开发新的计算方法来解决这个问题。在本文中,我们开发了一个深度学习框架Deep6 mA来识别DNA 6 mA位点,它的性能优于其他DNA 6 mA预测工具,而不需要任何6 mA的先验知识和手工制作的序列特征。具体地说,在水稻基准数据集上进行5次交叉验证,Deep6 mA的灵敏度和特异度分别为92.96%和95.06%,总体预测准确率为94%。重要的是,我们发现具有6 mA位点的序列在不同物种之间具有相似的模式。该模型用水稻数据训练,对拟南芥、花旗菜和月季3种植物的6 mA位点进行了较好的预测,预测准确率在90%以上。此外,我们还发现:(1)6 mA倾向于出现在GAGG基序上,这意味着6 mA位点附近的序列可能是保守的;(2)6 mA富集在启动子的TATA盒中,这可能是其调控下游基因表达的主要来源。
DNA N6甲基腺嘌呤(6mA)是一种新发现的真核生物甲基化修饰。它广泛而保守地存在于生物体内,其修饰水平在整个生命周期内动态变化。本研究提出了一种基于深度学习框架(包括LSTM和CNN)的算法来预测6mA位点。结果表明,我们的方法能够准确预测不同物种中的6mA位点,这意味着物种间含有6mA位点的子序列具有一定的保守性。重要的是,我们发现在大多数不同物种中出现在GAGG基序上6mA甲基化的可能性更大。此外,我们还发现启动子的TATA盒中富含6mA,这可能是调控下游基因表达的一种机制
2.研究背景
N4-甲基胞嘧啶(4mC)、N6-甲基腺嘌呤(6mA)、5-甲基胞嘧啶(5mC)等DNA甲基化修饰在不改变序列的情况下,在基因表达的表观遗传调控中发挥重要作用,广泛分布于不同物种的基因组中。DNA N6-甲基腺嘌呤(6mA)是指腺嘌呤的6个氮原子的甲基化,近年来发现在真核生物DNA的表观遗传修饰中起重要作用。以往的研究表明,6mA在DNA修复、DNA复制、基因转录调控和基因表达调控中发挥重要作用。虽然6mA位点在整个基因组中分布不均匀,可能受到环境因素的影响,但甲基化保护是一种遗传状态,原核生物和真核生物中的6mA表现出相似的特征。基因组上的6mA对于揭示表观遗传修饰过程的细节至关重要。
循环神经网络(RNN)是一种特殊的神经网络结构,其灵感来自于人类的认知是基于过去的经验和记忆。与CNN不同,RNN不仅考虑了之前时刻的输入,还能有效地“记住”之前的内容。因此,RNN在分析包含定时信息的序列方面具有优势。目前,RNN已经广泛应用于自然语言处理、图像处理、机器翻译、语音识别和生物信息学等领域。然而,由于梯度消失或梯度爆炸,很难训练RNN。长短期记忆(LSTM)和门循环单位(GRU)被提出来克服这一困难,它们是最常用的神经网络。
在这项研究中,我们引入了一个新的深度学习框架Deep6mA来识别脱氧核糖核酸6mA位点。由一个CNN和一个双向LSTM模块组成的Deep6mA在6mA预测方面比其他方法具有更好的性能。有趣的是,我们发现在水稻、拟南芥、草莓和月季四种植物中,6mA甲基化频率最高的基序集中在GAGG上,这意味着6mA甲基化在不同物种之间具有相似的模式。这进一步证明了由水稻数据训练的模型对其他三个物种的6mA具有较高的预测精度。从这些结果中我们可以得出结论,不同物种间的6mA甲基化序列是保守的,Deep6mA也可以用于分析其他植物物种的6mA位点。更重要的是,我们发现启动子的TATA盒中普遍富集了6mA。这可能是6mA调控基因表达的重要途径。
3.评价指标与方法
本文所提出的模型使用四个度量标准进行评估,分别是准确性(ACC),敏感性(SN),特异性(SP)和马修斯相关系数(MCC)。
4.材料和方法
1.数据集
数据集链接》》》http://www.pianlab.cn/deep6ma/download.html
2.序列表示
我们使用one-hot编码方法将序列转化为编码张量。具体地,将A,C,G,T和N编码为(1,0,0,0),这里字母“N”代表未测序的核苷酸(0,1,0,0),(0,0,1,0),(0, 0, 0,1)和(0,0,0,0)。这里字母“N”代表未测序的核苷酸。因此,输入的DNA序列被表示为一个4 × 41的编码矩阵,并被视为一个图像,这推动了我们的深度学习框架的设计。
3.Deep6mA 模型
Deep6mA由五层CNN、一层BLSTM和一层全连接层组成。CNN中的卷积层配置了256个滤波器,每个滤波器大小为10。在CNN层中使用ReLU作为激活函数
5.结果
5.1 CNN与CNN+LSTM的比较
在这一部分中,我们基于相同的训练数据,比较了CNN和CNN + LSTM在不同CNN设置下的性能。我们使用CNN相同架构来比较这两种方法,CNN和CNN+LSTM模型中的卷积层数设置为1、2或3,对应的卷积核大小设置为5、8、10或16,卷积核的数量设置为256。最后,CNN+LSTM模式中LSTM的单元号设置为32。表1显示了这两种方法在不同卷积层和内核大小下的性能。结果表明,CNN+ LSTM的性能优于CNN,这是因为LSTM能够学习序列背后的依赖结构。
此外,我们使用6mA-rice-Chen和Fragaria vesca数据作为额外的独立验证数据集来检验CNN + LSTM的这种边际改进是否适用于其他数据。来自S1和S2表的结果表明,当它们具有相同的CNN结构时,CNN + LSTM的性能优于CNN
5.2 CNN+LSTM的模型参数选择
CNN+LSTM框架的性能取决于滤波器大小和卷积层的卷积核数量,以及LSTM的隐藏单元数量。为了简化符号,我们将具有x卷积层、y卷积核、z滤波器大小和w隐藏单元的CNN+LSTM框架表示为具有参数x-y-z-w的CNN+LSTM。在这一部分,我们通过5倍交叉验证从参数x、y、z、w的30个不同设置中选择最佳CNN+LSTM模型。具体来说,我们从{1,2,3,4,5}中取x,从{64,256,512}中取y,从{16,32}中取w,将z固定在10。图1显示了CNN的预测性能
5.3 6mA位点的位置特征
在这一节中,我们研究了6mA位点的位置特征,也就是说,看看6mA甲基化是否在基因组的邻近区域富集。图A显示了12条染色体中相邻6mA位点之间的距离分布。根据研究结果,我们发现:(1)对于不同的染色体,相邻6mA位点之间的距离分布是相似的;(2)相邻6mA位点之间的平均距离大于64nt,这表明6mA位点很少出现在像5mC位点这样的连续区域内形成DMR。为了进一步研究确实聚集在一起的6mA位点的位置特征,我们观察了长度为30nt的具有超过5个6mA位点的子序列,并且发现这些子序列中几乎所有的6mA位点都位于启动子的TATA盒中。这意味着6mA通常可以在TATA盒中富集,TATA盒是启动子的重要功能成分。在RNA聚合酶与TATA盒紧密结合之前,转录过程不会开始。因此TATA盒上6mA甲基化的富集可能直接影响下游基因的表达。这可能是6mA甲基化修饰的重要调节功能。
5.4 与其他先进方法比较
5.5 对其他三种植物的验证
6 mA在不同物种之间是保守的,这表明Deep 6mA对水稻数据的训练适用于预测其他物种的6mA位点。我们试图通过将训练好的Deep 6mA应用于其他植物6mA数据来验证这一原理。
5.6 比较不同物种的基序
为了进一步了解水稻数据训练的Deep6mA在其他物种上的预测能力,我们从模型的第一个卷积层获得了17个重要的基序。图中显示了其中最重要的9个。
6.结论
在本研究中,我们通过整合CNN和LSTM提出了一个名为Deep6mA的深度学习框架来有效预测DNA 6mA位点。Deep6mA使用CNN层提取DNA序列表征,然后将其扩散到BLSTM层,以捕获6mA位点的上下文相关性信息。最后,这些特征被转移到完全连接层来确定该位点是否为6mA位点。