论文解读:《开发一种基于多层深度学习的预测模型来鉴定DNA N4-甲基胞嘧啶修饰》

文章地址:https://www.frontiersin.org/articles/10.3389/fbioe.2020.00274/full
DOI:https://doi.org/10.3389/fbioe.2020.00274
期刊:Frontiers in Bioengineering and Biotechnology(2区)
影响因子:5.89
发布时间:2020 年 4 月 21 日
数据:http://server.malab.cn/Deep4mcPred/Download.html
服务器:http://server.malab.cn/Deep4mcPred

1.文章概括

1.提出基于多层深度学习的预测模型:Deep4mcPred。首次集成残差网络(Residual Network)和循环神经网络(Recurrent Neural Network)来构建多层深度学习预测系统。
2.深度学习模型在训练预测模型时不需要特定的特征,它可以自动学习高级特征并捕获4mC位点的特征特异性,有利于区分4mC位点。
3.深度学习方法通​​过基准测试集比较优于传统机器学习的预测结果,表明Deep4mcPred在DNA 4mC位点预测中更有效。
4.引入深入学习框架的注意力机制可用于捕获关键特征。
5.开发了一个网络服务器:http://server.malab.cn/deep4mcpred

2.前言

随着高通量技术的发展,在细菌中发现了4mC,发现在保护基因组免受限制性改性(R-M)系统中的侵袭中起重要作用。
前人的方法改进了识别4mC位点的性能,但是数据集采用的太少,不能充分反映整个基因组并建立好性能的模型。

3.数据

Chen等人提出了一个Golden基准数据集,用于性能评估和比较。但是,数据集的大小太小而无法培训深入学习模型。因此,作者在本研究中构建了更大的数据集,他们严格遵循Chen学习中引入的数据处理程序,目的是保证处理后的数据集是最具代表性的。
在这里插入图片描述
(1)阳性样本

处理过程:

  1. 收集了所有41bp的长序列,从methsmrt数据库中占有真正的4mC位点。
  2. 删除了使用ModQV得分的序列,而不是根据甲基族分析技术说明调用修改位置的默认阈值。
  3. 使用了CD-BIT软件(具有80%的阈值)减少阳性的身份,避免性能偏见的潜力。

从三种种类中收集了阳性样本:拟南芥(A. Thilana),秀丽隐杆线虫(C. elegans)和黑腹果蝇(D. Melanogaster)。三种物种中阳性样品的细节列于表1。随机挑选了20,000个模型培训的正样品。
(2)阴性样本
阴性样品也是以胞嘧啶为中心的41bp序列,但不被SMRT测序技术识别。在这种情况下,每个物种的阴性样本数量远大于相应的正样品。为了避免数据不平衡问题,随机选择和阳性样本相同数量的序列构成阴性样本。

4.方法

4.1 序列特征

One-hot编码:

“A”:(1,0,0,0)
“G”:(0,1,0,0)
“C”:(0,0,1,0)
“T”:(0,0,0,1)
“N”:(0,0,0,0)

4.2 深度学习模型框架

在这里插入图片描述
对于给定的DNA序列,神经网络由四层组成:输入层,ResNet层,LSTM层和注意层,如图1所示。第一层是输入层。数据集的序列由One-hot编码,并且所获得的特征被送到后续的ResNet层中。通过这种ResNet模型,可以基于普通的CNN模型来构建更深的网络,用于提取有效的全局功能,输出特征向量被用作LSTM层的输入。在LSTM层中,双向LSTM模型用于从两个方向收集特征信息。在最后的注意层中,引入注意机制以集成LSTM层的输出以获取更多相关的特征信息。最后,在注意模型之后附加完全连接的神经网络(FC),并且执行Softmax激活功能以进行预测。

4.2.1 残差神经网络(ResNet

随着卷积神经网络的加深,优化效果反而越差,测试数据和训练数据的准确率反而降低了。这是由于网络的加深会造成梯度爆炸和梯度消失的问题。
目前针对这种现象已经有了解决的方法:对输入数据和中间层的数据进行归一化操作,这种方法可以保证网络在反向传播中采用随机梯度下降(SGD),从而让网络达到收敛。但是,这个方法仅对几十层的网络有用,当网络再往深处走的时候,这种方法就无用武之地了。
为了解决此问题,ResNet出现了,Reset的内部残余块利用跳转连接,减轻卷积神经网络中深度增加引起的梯度消失问题。

ResNet有两种,一种两层结构,一种三层结构:
在这里插入图片描述

4.2.2 长短时记忆网络(LSTM

由于梯度爆炸或梯度消失,RNN存在长期依赖问题,难以建立长距离的依赖关系,于是引入了门控机制来控制信息的累积速度,包括有选择地加入新信息,并有选择地遗忘之前积累的信息。比较经典的基于门控的RNN有LSTM(长短期记忆网络)和GRU(门控循环单元网络)。

4.2.3 注意力机制(Attention

注意机制可以快速滤除来自噪声的高级信息,最近在许多相关的分类任务中表现出巨大的成功,为了利用这一点,作者在模型中的LSTM层后应用了注意机制。

注意力机制优点:

  1. 参数少
    模型复杂度跟 CNN、RNN 相比,复杂度更小,参数也更少。所以对计算的要求也就更小。
  2. 速度快
    Attention 解决了 RNN 不能并行计算的问题。Attention机制每一步计算不依赖于上一步的计算结果,因此可以和CNN一样并行处理。
  3. 效果好
    在 Attention 机制引入之前,有一个问题大家一直很苦恼:长距离的信息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。Attention 是挑重点,就算文本比较长,也能从中间抓住重点,不丢失重要的信息。

4.2.4 Softmax

在注意模块后送到Softmax层之后产生的向量作为输入进行分类。
Softmax函数映射和神经元的输出到(0-1)之间的数字,并将总和归一成。换句话说,每个类别的输出分数可以通过Softmax转换为相对概率。因此,可以通过比较每个类的预测概率来确定预测标签。

5.结果

5.1 所提出的方法和现有方法的比较

在这里插入图片描述

5.2 通过整合注意机制对性能的影响

在这里插入图片描述
在这里插入图片描述

6.总结

Deep4mCPred是第一个基于深度学习的预测方法,集成了残差网络(ResNet)和双向长短时记忆网络(BiLSTM)来构建多层深度学习预测模型。
在训练预测模型时不需要指定特征,可以自动学习高级功能并捕获4mC位点的特征,有益于区分非4mC和真4mC位点。
引入深入学习框架的注意力机制可用于捕获关键特征。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值