论文解读:《一种利用二核苷酸One-hot编码器识别水稻基因组中N6甲基腺嘌呤位点的卷积神经网络》

论文解读:《A Convolutional Neural Network Using Dinucleotide One-hot Encoder for identifying DNA N6-Methyladenine Sites in the Rice Genome》

文章地址:https://www.sciencedirect.com/science/article/abs/pii/S0925231220315137
DOI:https://doi.org/10.1016/j.neucom.2020.09.056
期刊:Neurocomputing(二区)
影响因子:5.719
发布时间:2020年9月2日
Web服务器:http://iRicem6A-CNN.aibiochem.net
数据:1760样本-下载链接;154000样本-下载链接

1.文章概述

N6-甲基腺嘌呤(N6-Methyladenine,m6A)是重要的表观遗传修饰之一,与各种DNA过程的控制有关。通过传统的方法进行全基因组m6A分析是基础,但需要很长时间。作者提出了一个新的方案:iRicem6A-CNN,用于识别水稻基因组中的m6A位点,该方案采用二核苷酸(2-mer)One-hot编码技术,通过卷积神经网络产生输入张量进行预测,五倍交叉验证和独立测试的预测精度(ACC)分别达到了93.82% 和96.19% ,表现优于其他可用的预测器。实验结果表明,只有基于二核苷酸One-hot的iRicem6A-CNN能够表现出较高的性能,并且比采用单核苷酸(1-mer)One-hot的模型具有更稳定、更稳健的性能。

2.背景

N6-甲基腺嘌呤(N6-Methyladenine,m6A)是DNA的一种重要化学修饰产物,广泛存在于从真核生物到原核生物的各种生物体内,并与DNA复制、DNA修复和转录调控有关。DNA甲基化的基因组分析已成为下一代测序技术,尤其是单分子实时测序技术的应用越来越广泛。m6A位点的全基因组分布已经有了更好的特征,这导致了对其生物学功能的更好的理解。例如,全基因组的m6A位点研究揭示了m6A在不同的真核生物中的不同调节功能,并表明原核生物中的m6A作为一种标记,用于区分入侵的外来DNA和宿主DNA。
2018年,zhou等人利用 smrt 证明了水稻基因组中0.2% 的腺嘌呤是m6A甲基化的,自从这一发现以来,各种基于机器学习的计算水稻基因组中m6A的方法如雨后春笋般涌现。2019年,chen等人开发了 im6A-Pred,一种基于支持向量机(SVM)的方法,该方法基于包含1760个样本的基准数据集进行训练,准确率(ACC)达到83.13% 。随后,在传统机器学习算法(如 svm、随机森林(RF)和马尔可夫链模型(markov chain model)的基础上发展了其他方法来识别水稻基因组中的m6A位点,这些方法包括:im6A-DNCP、MM-m6Apred、SDM6A、iN6-methylat和iDNAm6A-rice,其中iDNAm6A-rice的ACC最高,为91.7% 。
在这项研究中,作者开发了一个新的方法:iRicem6A-CNN,来提高预测水稻全基因组m6A位点的准确性。作者采用了一个二核苷酸One-hot编码,将DNA序列转换成张量,然后输入设计良好的CNN进行模型优化。在5倍的交叉验证中ACC为93.82% ,在独立测试中ACC为96.19%。实验结果表明,采用二进制One-hot编码的iRicem6A-CNN比采用单核苷酸One-hot编码的iRicem6A-CNN具有更高的鲁棒性和准确性。指标比较结果表明,iRicem6A-CNN具有较好的性能,这不仅是因为它能够稳定地识别阳性样本,还因为它能够更准确地识别阴性样本。

3.数据

分别由 chen等人和 lv等人建立了两个广泛使用的水稻基因组m6A基准数据集,分别标记为Chen-rice-m6A和 Lv-m6A-rice。Chen-rice-m6A数据集由1760个样本组成,其中一半为阳性样本,另一半为阴性样本,已被基于非深度学习算法的报道模型广泛应用。Lv-m6A-rice数据集由154000个阳性样本和154000个阴性样本组成,且被lv等人用在了iDNAm6A-rice方法上,被Yu等人用在了SNNRicem6A方法上。两个数据集中的序列长度为41碱基(bp),中心位置各有一个腺嘌呤(A)。作者考虑到CNN模型需要大量数据的特性,所以采用Lv-m6A-rice数据集进行模型训练,采用Chen-rice-m6A数据集进行独立测试,以方便比较。

4.方法

4.1 特征编码

在这里插入图片描述

4.2 模型框架

在这里插入图片描述

5.结果

5.1 基于不同编码器的模型比较

在这里插入图片描述
在这里插入图片描述

5.2 与最先进的模型进行比较

在这里插入图片描述

6.结论

在这里,为水稻基因组中m6A位点开发了一种新的基于深度学习的方法:iRicem6A-CNN。该方法输入模型的DNA序列首先转换成一个二核苷酸的One-hot编码张量。作者用实验证明,二核苷酸的One-hot编码模型的性能优于一分体一热编码模型,并且在不同的预测概率阈值下表现出更强的鲁棒性。应用该模型进行水稻基因组m6A位点检测,结果表明,该模型具有较高的5倍交叉验证准确率(93.82%)和独立测试准确率(96.19%) ,是水稻基因组 m6A位点的最佳预测指标之一。作者的分析和比较表明,iRicem6A-CNN不仅能够准确地预测m6A阳性样本,而且能够降低阴性样本识别的错误率。此外,还为iRicem6A-CNN提供了一个用户友好的网络服务器。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: DNA甲基化程度的变化可能出现在不同的位置,而不一定是第一个位置。DNA甲基化是一种生物学的化学修饰方式,可以影响基因的表达和细胞的功能。这种修饰方式发生在DNA分子上的甲基基团与特定的碱基(如腺嘌呤或鸟嘌呤)之间的化学键上。在某些情况下,DNA甲基化可能发生在基因的启动子区域,从而影响基因的转录和表达。但是,DNA甲基化也可能发生在其他基因区域,以及非编码区域。因此,DNA甲基化程度可能在不同的位置上发生变化,而不是仅限于第一个位置。 ### 回答2: DNA甲基化是一种常见的表观遗传修饰,在不同细胞类型和个体之间可能会出现不同程度的甲基化。首先,第一个位置指的是DNA双螺旋结构的碱基,甲基化主要发生在CpG核苷酸(C和G碱基相连的位置)上。 第一,DNA甲基化程度可能因遗传变异而不同。在遗传层面上,DNA甲基转移酶和DNA去甲基化酶是通过编码基因来调控的。个体之间的差异可能是由于这些基因的遗传变异。这些基因的突变或多态性可能会影响酶的活性和调控,导致甲基化程度的差异。 第,在个体发育和环境因素的影响下,DNA甲基化程度也可能会发生改变。在不同细胞类型和组织,基因的表达模式各不相同,这部分归因于不同位置的DNA甲基化。这种细胞特异性的甲基化程度改变可能是由发育过程的不同调控因子、信号分子和细胞内环境等因素所致。 第三,环境因素也能够影响DNA甲基化程度。饮食、生活方式、暴露于化学物质、环境污染物等都可能对甲基化过程产生影响。这些环境因素可能通过改变DNA甲基转移酶和去甲基化酶的活性以及其他调控机制来调整甲基化程度。 综上所述,DNA甲基化程度可能在不同个体、细胞类型和环境因素的影响下发生差异。这些差异可能是由遗传变异、细胞特异性和环境的影响所致,进而导致DNA甲基化程度在DNA双螺旋结构的不同位置的变化。 ### 回答3: DNA甲基化是一种重要的表观遗传修饰方式,它在维持基因稳定性和调控基因表达起到关键作用。DNA甲基化程度的不同可能是由于多种因素的复杂交互所致。 首先,DNA序列特征可以影响甲基化程度。DNA序列存在一些特定的CpG岛区域,这些区域富含CpG核苷酸组合。CpG岛位点是DNA甲基化的高度易位区域,而DNA甲基化程度在非CpG岛区域较低。因此,DNA序列的差异可能导致DNA甲基化的差异。 其次,生物体在发育和环境适应过程会经历不同的表观遗传调控。DNA甲基化是可逆的,并且容易受到环境因素的调节。例如,环境的化学物质、温度、饮食等都可能影响DNA甲基化过程,从而导致甲基化程度的差异。 此外,遗传和表观遗传的相互作用也可能导致DNA甲基化程度的差异。基因在个体之间的遗传差异可能影响到DNA甲基化酶的表达和功能,从而导致DNA甲基化的不同。 综上所述,DNA甲基化程度的差异可能是由于DNA序列特征、环境调节以及遗传和表观遗传的相互作用等多种因素的综合作用所致。这些因素在DNA的不同区域可能有所不同,因此DNA甲基化程度可能在不同的位置有所差异。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值