论文解读:《Deep-4mcw2v: 基于序列的预测器用于识别大肠桿菌中的 N4- 甲基胞嘧啶(4mC)位点》

文字链接:https://www.sciencedirect.com/science/article/abs/pii/S1046202321001985
DOI :https://doi.org/10.1016/j.ymeth.2021.07.011
期刊:Methods(二区)
影响因子:3.608
发布时间:2021年8月2日
数据和代码:https://github.com/linDing-groups/Deep-4mCW2V

1.文章概述

N4-甲基胞嘧啶(4mC)是一种DNA修饰,可以调控多种生物进展,如转录调控、复制和基因表达。精确识别基因组序列中的4mC位点可以提供有关其遗传作用的特定知识。作者开发一个基于深度学习的模型来预测大肠桿菌中的4mC位点。在模型中,DNA序列通过字嵌入技术“ word2vec”进行编码。将所获得的特征输入一维卷积神经网络(CNN) ,从而区分大肠桿菌基因组中的4mC位点和非4mC位点。对独立数据集的检验表明,所提出的模型总体精度(ACC)为0.861,比现有模型高出约4.3% 。作者还提供了模型的数据和源代码。

2.背景

DNA的修饰,如甲基化和去甲基化,在DNA复制、转录调控和基因表达中发挥重要作用。在(5′-c- 磷酸根 -g-3′)位点,甲基胞嘧啶是一个重要的表观遗传属性,与染色体稳定性保护和细胞增殖密切相关。3-甲基胞嘧啶(3mC)、4-甲基胞嘧啶(4mC)和5-甲基胞嘧啶(5mC)是真核生物和原核生物基因组中常见的胞嘧啶甲基化反应。4mC是一种积极的修饰,通过限制性内切酶来保护自己的遗传信息。急需生物信息学工具来识别4mC位点。2017年,构建了一个开创性的预测模型,预测了几个物种中的4mC位置,在基准数据集上,设计了一个迭代特征说明算法,该算法辅助获取和训练大量高级模型中的特征,以预测4mC位点。 iEC4mC-SVM是在同一数据集上建立,利用梯度提升机器学习特征选择技术预测大肠杆菌的4mC位点。DNA4mc-LIP是一个线性整合工具,通过合并现有的预测工具来识别多种物种中的4mC位点。Meta-
4mCpred被设计用来预测6个物种的4mC位点。但迄今为止,只有一个基于深度学习的预测器:4mCCNN,可用于识别多物种的4mC位点,在这个模型中,他们利用几个特征结合深度学习方法来预测4mC位点。虽然4mCCNN可以产生令人满意的结果,但是通过提取更多的特征信息仍然有进一步改进的空间。
在这里插入图片描述
作者提出了一个1维的基于卷积神经网络的大肠杆菌4mC位点预测模型。图1显示了所提出模型的工作流程。字嵌入技术“ word2vec”用于将序列转换为数字特征向量,然后将这些数字特征向量输入一维卷积神经网络(CNN) ,在10倍交叉验证的基础上识别4mC位点。结果表明,该模型具有较好的预测效果,预测结果优于已有预测结果。

3.数据

作者从 chen 等人的【iDNA4mC:identifying DNA N4-methylcytosine sites based on nucleotide chemical properties】那里获得了基准训练数据集。在这项研究中,作者使用60% 作为截止序列识别,排除了相似序列。经过这一排除过程,最终获得了长度为41bp 的270个阳性和270个阴性序列的基准数据集,对模型进行了训练和检验。此外,还从Manavalan等人的【Meta-4mCpred: a sequence-based meta-predictor for accurate DNA 4mC site prediction using effective feature representation】中收集了134阳性和134阴性序列,用于独立测试。

4.方法

4.1 常见的特征方法

在建立基于机器学习的模型中,选择信息量大、自主性强的特征编码是一个关键的步骤。用数学方法表示DNA 序列在功能元件鉴定中非常重要。在生物信息学领域已经应用了一些DNA序列编码策略,如理化性质、二进制编码、核苷酸化学性质和 k 元组核苷酸频率成分、核苷酸对谱编码和自然载体等。在这里,为了尽可能多地提取DNA序列信息,提出了“ word2vec”嵌入技术来描述DNA序列。

4.2 Word2Vec

“ Word2Vec”是一种自然语言处理方案,它使用神经网络模型来生成语料库中单词的分布式表示。在这种技术中,单词嵌入是用于表示单词的术语。当然,实值向量在向量空间中编码较近的单词的意义,预计在意义上是相似的。“ Word2Vec”包括两个模型设计,第一个是连续词袋(CBOW),第二个是连续 skip-gram(csg)。连续词袋模型的基本概念是利用邻近窗口中的上下文词来猜测单词,而skip-gram模型的基本概念是利用一个词来猜测它的邻近词。在算法上,连续词袋模型的结构显示了有规律地组织数据集中发布的信息的优势。因此,在这项工作中,连续词袋模型被用来训练DNA序列的上下文相似性。“ Word2Vec”内嵌特征向量的维数为200。

4.3 深度神经网络

在这里插入图片描述

5.结果

5.1 序列组成分析

在这里插入图片描述
发现修饰位点周围的序列模式是一个预测和理解变异的遗传意义。在这项研究中,对两个样本标志的4mC附近的核苷酸扩散情况进行了分析。图3(a)核苷酸在正、负序列之间的分布在核苷酸C的相邻位置是不同的,A和T核苷酸在正序列的上游或下游处相对比较丰富,而C和G则在负序列的上游或下游处相对比较丰富。
例如,在阳性序列中发现4个连续的A核苷酸(15-18) ,在阴性序列中发现2个连续的A核苷酸(5-6)、(25-26)和(28-29) ,以及2个重复的G核苷酸(3-4)和(18-19)。图3(a)4mC样本与非4mC样本有显著性差异(t-test,P -value< 0.05)。上述结果表明,核苷酸在不同位置的分布有利于4mC和非4mC样品的正确分类。

5.2 性能评价

首先,利用分布式嵌入技术 word2vec 将训练数据转换为数字特征向量。然后将特征向量输入一维卷积神经网络进行分类。采用十倍交叉验证方法进行性能测试。
在这里插入图片描述
在这里插入图片描述

5.3 在独立数据集上与现有模型进行比较

Deep-4mcw2v与已有的4mCCNN模型10倍的交叉验证性能比较
在这里插入图片描述
不同分类器在训练集和独立数据集上的AUC
在这里插入图片描述
模型与现有方法的比较
在这里插入图片描述

6.结论

作者建立了一个CNN模型来识别大肠桿菌基因组中的4mC位点。在该模型中,采用分布式嵌入技术Word2vec对DNA序列进行编码,并通过10倍的交叉验证输入到CNN分类器中,得到最佳模型。独立数据的估计结果表明,预测模型提供了较好的结果和过度简化。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值