论文解读：《开发一种基于多层深度学习的预测模型来鉴定DNA N4-甲基胞嘧啶修饰》

风灬陌

已于 2022-08-22 14:12:42 修改

阅读量632

点赞数

分类专栏： DNA/RNA位点预测生物信息学深度学习文章标签：算法神经网络生物信息学

于 2021-08-08 10:19:06 首次发布

原文链接：https://www.frontiersin.org/articles/10.3389/fbioe.2020.00274/full

版权

生物信息学同时被 3 个专栏收录

53 篇文章 37 订阅

订阅专栏

深度学习

32 篇文章 3 订阅

订阅专栏

DNA/RNA位点预测

12 篇文章 2 订阅

订阅专栏

论文解读：《Developing a Multi-Layer Deep Learning Based Predictive Model to Identify DNA N4-Methylcytosine Modifications》

1.文章概括
2.前言
3.数据
4.方法
5.结果
- 5.1 所提出的方法和现有方法的比较
- 5.2 通过整合注意机制对性能的影响
6.总结

文章地址：https://www.frontiersin.org/articles/10.3389/fbioe.2020.00274/full
DOI：https://doi.org/10.3389/fbioe.2020.00274
期刊：Frontiers in Bioengineering and Biotechnology（2区）
影响因子：5.89
发布时间：2020 年 4 月 21 日
数据：http://server.malab.cn/Deep4mcPred/Download.html
服务器：http://server.malab.cn/Deep4mcPred

1.文章概括

1.提出基于多层深度学习的预测模型：Deep4mcPred。首次集成残差网络（Residual Network）和循环神经网络（Recurrent Neural Network）来构建多层深度学习预测系统。
2.深度学习模型在训练预测模型时不需要特定的特征，它可以自动学习高级特征并捕获4mC位点的特征特异性，有利于区分4mC位点。
3.深度学习方法通过基准测试集比较优于传统机器学习的预测结果，表明Deep4mcPred在DNA 4mC位点预测中更有效。
4.引入深入学习框架的注意力机制可用于捕获关键特征。
5.开发了一个网络服务器：http://server.malab.cn/deep4mcpred。

2.前言

随着高通量技术的发展，在细菌中发现了4mC，发现在保护基因组免受限制性改性（R-M）系统中的侵袭中起重要作用。
前人的方法改进了识别4mC位点的性能，但是数据集采用的太少，不能充分反映整个基因组并建立好性能的模型。

3.数据

Chen等人提出了一个Golden基准数据集，用于性能评估和比较。但是，数据集的大小太小而无法培训深入学习模型。因此，作者在本研究中构建了更大的数据集，他们严格遵循Chen学习中引入的数据处理程序，目的是保证处理后的数据集是最具代表性的。
在这里插入图片描述
（1）阳性样本

处理过程：

收集了所有41bp的长序列，从methsmrt数据库中占有真正的4mC位点。
删除了使用ModQV得分的序列，而不是根据甲基族分析技术说明调用修改位置的默认阈值。
使用了CD-BIT软件（具有80％的阈值）减少阳性的身份，避免性能偏见的潜力。

从三种种类中收集了阳性样本：拟南芥（A. Thilana），秀丽隐杆线虫（C. elegans）和黑腹果蝇（D. Melanogaster）。三种物种中阳性样品的细节列于表1。随机挑选了20,000个模型培训的正样品。
（2）阴性样本
阴性样品也是以胞嘧啶为中心的41bp序列，但不被SMRT测序技术识别。在这种情况下，每个物种的阴性样本数量远大于相应的正样品。为了避免数据不平衡问题，随机选择和阳性样本相同数量的序列构成阴性样本。

4.方法

4.1 序列特征

One-hot编码：

“A”：（1,0,0,0）
“G”：（0,1,0,0）
“C”：（0,0,1,0）
“T”：（0,0,0,1）
“N”：（0,0,0,0）

4.2 深度学习模型框架

在这里插入图片描述
对于给定的DNA序列，神经网络由四层组成：输入层，ResNet层，LSTM层和注意层，如图1所示。第一层是输入层。数据集的序列由One-hot编码，并且所获得的特征被送到后续的ResNet层中。通过这种ResNet模型，可以基于普通的CNN模型来构建更深的网络，用于提取有效的全局功能，输出特征向量被用作LSTM层的输入。在LSTM层中，双向LSTM模型用于从两个方向收集特征信息。在最后的注意层中，引入注意机制以集成LSTM层的输出以获取更多相关的特征信息。最后，在注意模型之后附加完全连接的神经网络（FC），并且执行Softmax激活功能以进行预测。

4.2.1 残差神经网络（ResNet）

随着卷积神经网络的加深，优化效果反而越差，测试数据和训练数据的准确率反而降低了。这是由于网络的加深会造成梯度爆炸和梯度消失的问题。
目前针对这种现象已经有了解决的方法：对输入数据和中间层的数据进行归一化操作，这种方法可以保证网络在反向传播中采用随机梯度下降（SGD），从而让网络达到收敛。但是，这个方法仅对几十层的网络有用，当网络再往深处走的时候，这种方法就无用武之地了。
为了解决此问题，ResNet出现了，Reset的内部残余块利用跳转连接，减轻卷积神经网络中深度增加引起的梯度消失问题。

ResNet有两种，一种两层结构，一种三层结构：

4.2.2 长短时记忆网络（LSTM）

由于梯度爆炸或梯度消失，RNN存在长期依赖问题，难以建立长距离的依赖关系，于是引入了门控机制来控制信息的累积速度，包括有选择地加入新信息，并有选择地遗忘之前积累的信息。比较经典的基于门控的RNN有LSTM（长短期记忆网络）和GRU（门控循环单元网络）。

4.2.3 注意力机制（Attention）

注意机制可以快速滤除来自噪声的高级信息，最近在许多相关的分类任务中表现出巨大的成功，为了利用这一点，作者在模型中的LSTM层后应用了注意机制。

注意力机制优点：

参数少
模型复杂度跟 CNN、RNN 相比，复杂度更小，参数也更少。所以对计算的要求也就更小。
速度快
Attention 解决了 RNN 不能并行计算的问题。Attention机制每一步计算不依赖于上一步的计算结果，因此可以和CNN一样并行处理。
效果好
在 Attention 机制引入之前，有一个问题大家一直很苦恼：长距离的信息会被弱化，就好像记忆能力弱的人，记不住过去的事情是一样的。Attention 是挑重点，就算文本比较长，也能从中间抓住重点，不丢失重要的信息。

4.2.4 Softmax

在注意模块后送到Softmax层之后产生的向量作为输入进行分类。
Softmax函数映射和神经元的输出到（0-1）之间的数字，并将总和归一成。换句话说，每个类别的输出分数可以通过Softmax转换为相对概率。因此，可以通过比较每个类的预测概率来确定预测标签。

5.结果

5.1 所提出的方法和现有方法的比较

在这里插入图片描述

5.2 通过整合注意机制对性能的影响

在这里插入图片描述

6.总结

Deep4mCPred是第一个基于深度学习的预测方法，集成了残差网络（ResNet）和双向长短时记忆网络（BiLSTM）来构建多层深度学习预测模型。
在训练预测模型时不需要指定特征，可以自动学习高级功能并捕获4mC位点的特征，有益于区分非4mC和真4mC位点。
引入深入学习框架的注意力机制可用于捕获关键特征。

风灬陌

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文解读：《开发一种基于多层深度学习的预测模型来鉴定DNA N4-甲基胞嘧啶修饰》

随着高通量技术的发展，在细菌中发现了4mC，发现在保护基因组免受限制性改性（R-M）系统中的侵袭中起重要作用。前人的方法改进了识别4mC位点的性能，但是数据集采用的太少，不能充分反映整个基因组并建立好性能的模型。Deep4mCPred是第一个基于深度学习的预测方法，集成了残差网络（ResNet）和双向长短时记忆网络（BiLSTM）来构建多层深度学习预测模型。在训练预测模型时不需要指定特征，可以自动学习高级功能并捕获4mC位点的特征，有益于区分非4mC和真4mC位点。
复制链接

扫一扫