Deep-4mCW2V: A sequence-based predictor to identify N4-methylcytosine sites in Escherichia coli
期刊:Methods
中科院分区:三区
影响因子:4.647
Github:https://github.com/linDing-groups/Deep-4mCW2V
Web网站:无
发布时间:2021年7月
目录
1. 摘要
N4-甲基环肽(4MC)是一种DNA修饰,可以调节几种生物学进展,例如转录调控,复制和基因表达。精确识别基因组序列中的4MC位点可以提供有关其遗传作用的特定知识。这项研究旨在开发一个基于深度学习的模型,以预测大肠杆菌中的4MC位点。在模型中,DNA序列是通过单词嵌入技术“ Word2Vec”编码的。将获得的特征输入到1D卷积神经网络(CNN)中,以区分大肠杆菌基因组中非4MC位点的4MC位点。对独立数据集的检查表明,我们的模型可以产生0.861的总体准确性,比现有模型高约4.3%。
2.数据集与方法
精确且可靠的数据集对于建立预测模型至关重要[27-33]。因此,我们从Chen等人的工作[17]获得了基准培训数据集。在这项研究中,我们排除了使用60%作为序列身份临界值的类似序列[34,35]。在此消除程序之后,我们最终达到了270个正和270个负序列的基准数据集,长度为41 bp,以训练和测试模型。此外,我们还从Manavalan等人那里收集了134个正和134个负序列,[21]用于独立测试。
3.独立测试结果
与其他实验结果对比
4.结论
N4-甲基胞嘧啶是与重要遗传进展有关的DNA改变,例如基因和转录调节,细胞复制和分化。因此,对基因组中4MC位点的正确识别对于理解其遗传作用至关重要。迄今为止,已经参与了许多预测因子,以对4MC [17],4MCPRED [80],DNA4MC-LIP [20],Meta4MCpred [21],IDNA-MS [81]和DEEPTRORTS [82]等多种物种进行分类4MC位点。 ,但只有一种称为4MCCNN [22]的深度学习方法存在于大肠杆菌中。在这项研究中,建立了CNN模型,以鉴定大肠杆菌基因组中的4MC位点。在提出的模型中,使用分布式嵌入式技术“ Word2Vec”对DNA序列进行编码,并使用10倍CV测试输入到CNN分类器中,并获得了最佳模型。独立数据的估计结果表明,预计模型提供了出色的性能和过度简化。我们在https://github.com/linding-groups/ept-4mcw2v上免费提供了源代码和数据。研究人员可以通过使用我们的免费源代码来生成单词嵌入DNA序列,并识别其角色。将来,我们将发布WebServer,以使我们的预计模型更加方便地为没有数学和编程知识的用户。