Title:6mAPred-MSFF: A Deep Learning Model for Predicting DNA N6-Methyladenine Sites across Species Based on a Multi-Scale Feature Fusion Mechanism
期刊:applied sciences
代码与数据集:https://github.com/raozeng/6mAPred-MSFF
一、摘要
开发了一种新的计算预测器,即6mAPred-MSFF,这是一种基于多尺度特征融合机制的深度学习框架,用于识别不同物种的6mA位点。在预测器中,我们整合了反向残差块和多尺度注意机制来构建轻量级的深度神经网络。
二、方法与数据集
数据集:六个物种-A. thaliana、R. chinensis、F . vesca、H. sapiens、d . melanogaster
下图:6mAPred-MSFF流程图。序列嵌入模块使用四种不同的编码方案(1-gram、NAC、2-gram、DNC)作为嵌入层的输入。接下来,特征矩阵被馈送到特征提取模块,以分别捕获和组合全局和局部特征。然后,将四种不同编码方案的局部和全局上下文聚合到特征融合模块中。最后,将特征融合模块的输出送入预测模块,预测某一物种的6mA位点。
方法:模型有四个模块,包括序列嵌入模块、特征提取模块、特征融合模块和预测模块。首先,在序列嵌入模块中,我们使用四种不同的编码方案(1-gram、NAC、2-gram、DNC)作为嵌入层的输入。每个核苷酸被表示为浮点值的密集向量。结果,基因组序列可以分别由四个特征矩阵表示。我们分别连接1-gram和NAC的特征矩阵以及2-gram和DNC矩阵的特征矩阵。然后,将得到的两个特征矩阵送入特征提取模块,该模块由反向残差块和多尺度通道注意机制模块(MS-CAM)组成。为了从全局特征中提取更多信息并过滤作为MS-CAM源的特征,我们使用包括扩展逐点层、卷积层和投影逐点层的反向残差块。MS-CAM分别提取和组合两个特征矩阵的全局和局部特征。在融合两个特征矩阵之前,我们使用双向LSTM层来学习关于长距离依赖的信息。然后,在特征融合模块中,我们通过加法运算将双向LSTM层提取的特征组合起来,并送入MS-CAM模块计算两个特征矩阵的融合权重。我们将特征矩阵与相应的融合权重相乘,并通过加法运算来组合结果。这样,我们通过聚集四种不同编码方案的局部和全局上下文来获得特征。第三,在预测模块中,特征的输出通过漏失层传递,以防止训练期间的过拟合。
三、结果
四、结论
在这项研究中,我们提出了一种新的预测器,称为6mAPred-MSFF预测DNA 6mA位点。6mAPred-MSFF是第一个深度学习预测器,通过反向残差块和多尺度通道注意模块(MS-CAM)整合全局和局部上下文。为了通过融合权重融合不同的特征向量,6mAPred-MSFF使用了基于MS-CAM的注意力特征融合(AFF)模块。与现有的预测器相比,我们提出的方法可以自动学习全局和局部特征,并捕捉6mA位点的特征特异性。另一方面,实验结果表明,我们提出的方法可以有效地提高DNA 6mA位点预测的准确性和泛化能力。我们提出的深度学习方法在水稻基准和其他物种的独立测试中表现出更好的性能。