论文解读:《Developing a Multi-Layer Deep Learning Based Predictive Model to Identify DNA N4-Methylcytosine Modifications》
文章地址:https://www.frontiersin.org/articles/10.3389/fbioe.2020.00274/full
DOI:https://doi.org/10.3389/fbioe.2020.00274
期刊:Frontiers in Bioengineering and Biotechnology(2区)
影响因子:5.89
发布时间:2020 年 4 月 21 日
数据:http://server.malab.cn/Deep4mcPred/Download.html
服务器:http://server.malab.cn/Deep4mcPred
1.文章概括
1.提出基于多层深度学习的预测模型:Deep4mcPred。首次集成残差网络(Residual Network)和循环神经网络(Recurrent Neural Network)来构建多层深度学习预测系统。
2.深度学习模型在训练预测模型时不需要特定的特征,它可以自动学习高级特征并捕获4mC位点的特征特异性,有利于区分4mC位点。
3.深度学习方法通过基准测试集比较优于传统机器学习的预测结果,表明Deep4mcPred在DNA 4mC位点预测中更有效。
4.引入深入学习框架的注意力机制可用于捕获关键特征。
5.开发了一个网络服务器:http://server.malab.cn/deep4mcpred。
2.前言
随着高通量技术的发展,在细菌中发现了4mC,发现在保护基因组免受限制性改性(R-M)系统中的侵袭中起重要作用。
前人的方法改进了识别4mC位点的性能,但是数据集采用的太少,不能充分反映整个基因组并建立好性能的模型。
3.数据
Chen等人提出了一个Golden基准数据集,用于性能评估和比较。但是,数据集的大小太小而无法培训深入学习模型。因此,作者在本研究中构建了更大的数据集,他们严格遵循Chen学习中引入的数据处理程序,目的是保证处理后的数据集是最具代表性的。
(1)阳性样本
处理过程:
- 收集了所有41bp的长序列,从methsmrt数据库中占有真正的4mC位点。
- 删除了使用ModQV得分的序列,而不是根据甲基族分析技术说明调用修改位置的默认阈值。
- 使用了CD-BIT软件(具有80%的阈值)减少阳性的身份,避免性能偏见的潜力。
从三种种类中收集了阳性样本:拟南芥(A. Thilana),秀丽隐杆线虫(C. elegans)和黑腹果蝇(D. Melanogaster)。三种物种中阳性样品的细节列于表1。随机挑选了20,000个模型培训的正样品。
(2)阴性样本
阴性样品也是以胞嘧啶为中心的41bp序列,但不被SMRT测序技术识别。在这种情况下,每个物种的阴性样本数量远大于相应的正样品。为了避免数据不平衡问题,随机选择和阳性样本相同数量的序列构成阴性样本。
4.方法
4.1 序列特征
One-hot编码:
“A”:(1,0,0,0)
“G”:(0,1,0,0)
“C”:(0,0,1,0)
“T”:(0,0,0,1)
“N”:(0,0,0,0)
4.2 深度学习模型框架
对于给定的DNA序列,神经网络由四层组成:输入层,ResNet层,LSTM层和注意层,如图1所示。第一层是输入层。数据集的序列由One-hot编码,并且所获得的特征被送到后续的ResNet层中。通过这种ResNet模型,可以基于普通的CNN模型来构建更深的网络,用于提取有效的全局功能,输出特征向量被用作LSTM层的输入。在LSTM层中,双向LSTM模型用于从两个方向收集特征信息。在最后的注意层中,引入注意机制以集成LSTM层的输出以获取更多相关的特征信息。最后,在注意模型之后附加完全连接的神经网络(FC),并且执行Softmax激活功能以进行预测。
4.2.1 残差神经网络(ResNet)
随着卷积神经网络的加深,优化效果反而越差,测试数据和训练数据的准确率反而降低了。这是由于网络的加深会造成梯度爆炸和梯度消失的问题。
目前针对这种现象已经有了解决的方法:对输入数据和中间层的数据进行归一化操作,这种方法可以保证网络在反向传播中采用随机梯度下降(SGD),从而让网络达到收敛。但是,这个方法仅对几十层的网络有用,当网络再往深处走的时候,这种方法就无用武之地了。
为了解决此问题,ResNet出现了,Reset的内部残余块利用跳转连接,减轻卷积神经网络中深度增加引起的梯度消失问题。
ResNet有两种,一种两层结构,一种三层结构:
4.2.2 长短时记忆网络(LSTM)
由于梯度爆炸或梯度消失,RNN存在长期依赖问题,难以建立长距离的依赖关系,于是引入了门控机制来控制信息的累积速度,包括有选择地加入新信息,并有选择地遗忘之前积累的信息。比较经典的基于门控的RNN有LSTM(长短期记忆网络)和GRU(门控循环单元网络)。
4.2.3 注意力机制(Attention)
注意机制可以快速滤除来自噪声的高级信息,最近在许多相关的分类任务中表现出巨大的成功,为了利用这一点,作者在模型中的LSTM层后应用了注意机制。
注意力机制优点:
- 参数少
模型复杂度跟 CNN、RNN 相比,复杂度更小,参数也更少。所以对计算的要求也就更小。- 速度快
Attention 解决了 RNN 不能并行计算的问题。Attention机制每一步计算不依赖于上一步的计算结果,因此可以和CNN一样并行处理。- 效果好
在 Attention 机制引入之前,有一个问题大家一直很苦恼:长距离的信息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。Attention 是挑重点,就算文本比较长,也能从中间抓住重点,不丢失重要的信息。
4.2.4 Softmax
在注意模块后送到Softmax层之后产生的向量作为输入进行分类。
Softmax函数映射和神经元的输出到(0-1)之间的数字,并将总和归一成。换句话说,每个类别的输出分数可以通过Softmax转换为相对概率。因此,可以通过比较每个类的预测概率来确定预测标签。
5.结果
5.1 所提出的方法和现有方法的比较
5.2 通过整合注意机制对性能的影响
6.总结
Deep4mCPred是第一个基于深度学习的预测方法,集成了残差网络(ResNet)和双向长短时记忆网络(BiLSTM)来构建多层深度学习预测模型。
在训练预测模型时不需要指定特征,可以自动学习高级功能并捕获4mC位点的特征,有益于区分非4mC和真4mC位点。
引入深入学习框架的注意力机制可用于捕获关键特征。