文章地址: https://www.frontiersin.org/articles/10.3389/fgene.2019.01071/full
代码: https://github.com/yuht4/SNNRice6mA
摘要
DNA N6甲基腺嘌呤(6mA)是一种重要的表观遗传修饰,参与许多生物学调控过程。准确可靠的6mA鉴定方法可以帮助我们更好地了解修饰的调节机制。虽然已经提出了许多实验技术来在全基因组范围内鉴定6mA位点,但这些技术既耗时又费力。最近,已经开发了几种机器学习方法来识别基因组范围内的6mA位点。然而,在预测水稻基因组中6mA位点方面,它们的性能还有改进的余地。在本论文中,我们开发了一个简单而轻量级的深度学习模型来识别水稻基因组中的DNA 6mA位点。我们的模型不需要事先了解6mA或手工制作的序列特征。我们基于两个rice 6mA基准数据集构建了我们的模型。在我们使用的两个数据集上,我们的方法得到了约93%和约92%的平均预测准确率。我们将我们的方法与现有的6mA预测工具进行了比较。比较结果表明,我们的模型优于最先进的方法。
关键词:表观遗传学、深度学习、DNA序列、水稻、生物信息学
N6-甲基腺嘌呤(N6-methyladenosine,m6A)是真核生物信使RNA(Messenger RNA,mRNA)上含量最多的化学修饰之一。m6A修饰是动态可逆的,可在时间和空间上被甲基转移酶和去甲基酶调控。哺乳动物体内m6A甲基转移酶复合物中有一部分成分已被解析,主要有METTL3 (Methyltransferase-like protein 3)、METTL14 (Methyltransferase-like protein 14)和WTAP (Wilms tumor l-associating protein)。
脉冲神经网络 (SNN-Spiking Neuron Networks) 经常被誉为第三代人工神经网络。第一代神经网络是感知器,它是一个简单的神经元模型并且只能处理二进制数据。第二代神经网络包括比较广泛,包括应用较多的BP神经网络。但是从本质来讲,这些神经网络都是基于神经脉冲的频率进行编码( rate coded)。
脉冲神经网络,其模拟神经元更加接近实际,除此之外,把时间信息的影响也考虑其中。思路是这样的,动态神经网络中的神经元不是在每一次迭代传播中都被激活(而在典型的多层感知机网络中却是),而是在它的膜电位达到某一个特定值才被激活。当一个神经元被激活,它会产生一个信号传递给其他神经元,提高或降低其膜电位。
在脉冲神经网络中,神经元的当前激活水平(被建模成某种微分方程)通常被认为是当前状态,一个输入脉冲会使当前这个值升高,持续一段时间,然后逐渐衰退。出现了很多编码方式把这些输出脉冲