论文翻译：《DeepTorrent：一种基于深度学习的方法，用于预测DNA N4-甲基环肽位点》

最新推荐文章于 2023-04-03 19:21:03 发布

YZT8848

最新推荐文章于 2023-04-03 19:21:03 发布

阅读量364

点赞数

分类专栏：生信文章标签：深度学习人工智能计算机视觉

原文链接：https://deeptorrent.erc.monash.edu/

版权

生信专栏收录该内容

51 篇文章 22 订阅

订阅专栏

DeepTorrent: a deep learning-based approach for predicting DNA N4-methylcytosine sites

期刊：Briefings in Bioinformatics

服务器：DeepTorrent

1. 摘要

DNA N4-甲基胞嘧啶（4MC）是重要的表观遗传修饰，在调节DNA复制和表达中起着至关重要的作用。但是，通过实验方法检测4MC站点是一项挑战，这些方法耗时且昂贵。因此，可以识别4MC位点的计算工具对于理解这种重要类型的DNA修饰的机制非常有用。在过去的3年中，已经提出了一些基于机器学习的4MC预测指标，尽管它们的性能不令人满意。深度学习是开发更准确的4MC站点预测的一种有希望的技术。在这项工作中，我们提出了一种基于深度学习的方法，称为DeepTorrent，以改善从DNA序列对4MC位点的预测。它结合了四个不同的特征编码方案来编码原始DNA序列，并采用具有与双向长短期内存集成的成立模块的多层卷积神经网络，以有效地学习高阶特征表示。然后，来自不同大小的过滤器的维度缩减和级联特征图被应用于初始模块。此外，还采用注意机制和迁移学习技术来训练鲁棒预测器。广泛的基准测试实验表明，与几种最先进的方法相比，DeepT orrent显著提高了4mC站点预测的性能。

2. 数据集

所有六个现有基于ML的4MC站点预测因子，包括IDNA4MC，4MCPRED，4MCPRED-SVM，META-4MCPRED，4MCPREDIFL和4MCCNN，都使用先前由Chen等人[22]构建的相同数据集进行了培训和评估。该数据集最初是从METHSMRT数据库中检索的[9]。我们使用此数据集训练了深度模型，并将其性能与其他现有方法的性能进行了比较。该数据集包含了六种不同物种的实验验证的4MC位点，包括秀丽隐杆线虫，果蝇Melanogaster，拟南芥，Escherichia Coli,Geoalkalibacter subterraneus和Geobacter Pickeringii。数据集中的所有阳性样品的所有序列的长度为41 bp。除去冗余序列，以确保数据集中任意两个序列的序列身份小于80％，这与先前的研究一致[22-24]。表2的第二列列出了每个物种的提取阳性样品的数量。结果，产生了每个物种中大量的负样品候选物。随后，从候选负样本中随机提取每个物种的相同数量的负样品。这样，构建了每个物种的阳性和负样品的数据集。

此外，我们还从METHSMRT数据库中收集了上述六个物种基因组中的序列长度为41 bp的其他4MC位点[9]。如前所述[22]，MODQV得分≥30表示修饰的位置，因此我们保留了此类序列并将其视为阳性样品候选物。对于这六个物种中的每一个，我们收集了大量的非4MC位点，其中包含41 bp的序列，中心中没有胞嘧啶，而SMRT测序技术未检测到。非4MC站点的序列被认为是负样品候选物。由于候选正面和负样品包含许多具有高相似性的冗余样品，因此我们使用CD-HIT程序[31]去除具有序列身份截止的冗余样品。在上述过程之后，我们在C. exkemans，D。Melanogaster，A。Thaliana，E。Coli，G。Sutterraneus和G. pickeringii中获得了58396、57654、75027、2067、2067、17和5724的阳性样品。对于每个物种，构建附加训练数据集和其他独立测试数据集的过程如下：首先，我们选择了从上述提取的正序列中的独立测试数据集≥50的序列，如上所述。选择具有MODQV≥50的样品的原因是需要一个高度可靠的独立测试数据集来评估深度变量并将其与其他最新方法进行比较。然后将剩余的正序列用作训练数据集。其次，为了构建平衡数据集，我们随机选择了与正样本相同数量的负样本。在或说明的便利性，我们重命名上述两个数据集如下：Chen等人构建的数据集[22] Wasrenamedaslin_2017，而附加数据集则将其更名为LI_2020。此外，我们还生成了这两个数据集的两个样本序列徽标

3.方法

DeepTorrent框架图1说明了深torrent的DL体系结构的概述。在这项研究中，可以将4MC站点预测任务视为二进制分类问题。为了解决这个问题，DeepTorrent首先使用特征提取模块（例如输入；卷积，合并和汇总；注意和复发；以及图1中的合并层），然后使用预测模块预测4MC站点（充分在图1中连接并输出层。 DeepTorrent首先使用四个不同的编码方案编码样品（表示为41 BP DNA序列）。四个编码矩阵并行输入到特征提取模块的输入层中，并且具有INCEPTION，BLSTM的CNN和注意力层将每个编码转换为抽象特征表示。然后将所有这些抽象功能合并为单个特征向量。随后，使用两层完全连接的网络和输出层来生成最终预测结果，即4MC站点或非4MC站点。四种编码

4.结果

我们将六个特定于物种的数据集集成到一个大数据集中，并将数据集中大约90％的条目用作培训数据集和其余条目作为验证数据集。补充表S2中提供了使用每个编码组成训练的深度模型的性能结果。此外，我们绘制了使用每种编码的深度训练的深度曲线的ROC曲线，如补充图S2。Wethen确定了在单个编码组合物中具有最佳性能的编码组成，DI-DI-编码组合物，Tri-Ancododing组成和TETRA编码组合物和TETRA编码组成组成（补充表S2和图S2）。结果表明，最好的编码组成为4、3-4、2-3-4和1-2-3-4。四个选定的编码组合物的性能比较如图2A所示。Theresults表明，DeepTorrent基于使用1-2-3-4 TETRA编码组成的模型实现了最佳的总体性能。

就物种特异性的4MC预测而言，每个物种的数据集相对较小。众所周知，小型数据集用于训练DL模型可能会导致过度拟合[56]。因此，我们通过组合所有六个物种来训练基本网络以避免过度拟合来使用较大的数据集。对于六个物种中的每一个，我们使用相应的训练数据集来重新训练物种特异性模型。该过程如下：我们首先将基本网络的n层复制为物种特异性模型的第一层层，然后冻结了该物种特异性模型的第一层层，仅将其他层的超参数调整为使用特异性训练数据集对物种特异性模型进行重新训练。在最新的图像分类[57]和激酶特异性磷酸化位点预测中，该策略已被证明可以有效地改善样品数据集的分类问题的性能有限[37]。图2b显示了基本模型在训练和验证数据上的训练时期的训练损失和准确性。在培训过程中，采用了早期停止策略，并在测试何时停止训练时监视准确性更改。当验证精度在20个时期后不再提高时，训练过程将被中断。显然，基本模型在大约170个时代后显示出类似的训练损失和验证损失，并实现了更高的训练准确性（0.8241）和验证精度（0.7406）。这表明基本模型为基于转移学习的特定物种模型提供了强大的基础。

为了将DeepTorrent的性能与现有的4MC预测方法进行比较，我们使用独立数据集进行了与现有方法进行比较。对于4MCPRED的独立测试[23]，将每个物种基准数据集的正和负训练数据集随机分为大约相等的15个子集，其中14个子集被选为训练数据集，其余的子集则用于使用。测试模型。为了进行公平和客观的比较，我们为六个物种中的每个物种使用了相同的培训数据集和独立的测试数据集。补充图S3显示了每个物种特异性模型的ROC曲线。此外，我们对物种特异性模型进行了独立测试，而无需使用相同的培训和独立的测试数据集进行转移学习，并在补充图S4中绘制了ROC曲线，以与经过转移学习训练的模型进行比较。从补充图S4可以看出，每个经过转移学习训练的物种特异性模型始终达到的AUC值比没有转移学习的情况下的AUC值更高，例如秀丽隐杆线虫上的0.893对0.893，0.832在D. Melanogaster上为0.847，为0.847，0.815在A. thaliana上为0.783，在大肠杆菌上为0.935，为0.796，在0.939上，在G. Subterraneus上为0.856，在G. Subterraneus和0.929 vers 0.875 vers 0.875 v。补充表S3中提供了有或没有转移学习的特定模型的性能比较结果。可以看出，经过转移学习训练的特定物种模型优于那些在所有主要评估指标方面不转移学习的人。

为了评估深度变性的性能，我们进行了10倍的交叉验证测试，以将深层变量与几种现有方法进行比较，包括IDNA4MC [22]，4MCPRED [23]，4MCPRED-SVM [24]，Meta-4MCPRED [25]和4MCCCNN [25]和4MCCCNN [27]。与这五种方法相比，补充表S5中提供了这些六种方法的性能结果。Asshownin补充表S5，在所有六个物种中，DeepTorrent在ACC和SP方面取得了最佳性能。我们还绘制了六种物种的六种方法的MCC值，结果如图4所示。可以看出，DeepTorrent达到了六个物种中五个物种的最高MCC值（除了A. thaliana以外）。

5. 结论

在这项研究中，我们提出了一种用于4MC站点预测的基于DL的新型方法，称为DeepTorrent。 DeepTorrent基于具有Inception模块和BLSTM的CNN框架，并且与序列和特征维度上的注意机制集成在一起，以识别更重要和相关的特征。此外，DeepTorrent结合了多编码方案，以找到最佳的编码输入。结果，以并行方式将四个编码输入到DL网络中。该模型使用这些编码输入来得出复杂的特征，这些特征被串联成单个特征向量，作为用于预测4MC位点的完全连接层的输入。通过可视化功能表示，这种独特的体系结构已被证明是有效的。为了解决使用小数据集使用过度拟合的潜在问题，我们使用六个物种的数据集引入了一种有效的转移学习策略，以首先学习基本模型，然后将基本模型转移到训练物种特异性模型。与现有方法相比，通过转移学习训练的特定物种模型可以通过四种物种（即秀丽隐杆线虫，D。Melanogaster，A。Thaliana和G. pickeringii）获得更好的性能，并根据三个主要指标的更好的预测性能。其他两个物种（即大肠杆菌和G. supterraneus）。此外，我们的模型在所有六个物种的准确性和MCC方面都达到了最佳性能。为了验证深度变性，我们进行了跨物种验证并评估了不同方法的性能。结果表明，与几种最新方法相比，DeepTorrent提供了竞争性能和知识转移能力。此外，我们构建了一个额外的数据集，并进一步评估了DeepTorrent相对于该数据集上的其他方法的性能。结果表明，DeepTorrent提供了改进的预测性能。 deeptorrent的用户友好的Web服务器和源代码是freelyavailablethttp：//deeptorrent.erc.monash.edu/。总体而言，DeepTorrent有望成为从DNA序列中准确和高通量4MC位点预测的强大工具。