论文解读:《i4mC-Deep: 利用具有化学特性的深度学习方法,对 N4-甲基胞嘧啶位点进行智能预测》

论文解读:《i4mC-Deep: An Intelligent Predictor of N4-Methylcytosine Sites Using a Deep Learning Approach with Chemical Properties》

文章链接:https://www.mdpi.com/2073-4425/12/8/1117
DOI:https://doi.org/10.3390/genes12081117
期刊:Genes(三区)
影响因子:4.096
发布时间:2021年7月23日
服务器:http://nsclbio.jbnu.ac.kr/tools/i4mC-Deep/
补充文件: https://www.mdpi.com/article/10.3390/genes12081117/s1
代码和数据:https://github.com/waleed551/i4mC-Deep

1.文章概述

DNA受到N4-甲基胞嘧啶(4mC)分子的表观遗传修饰。N4-甲基胞嘧啶在DNA修复和复制中起重要作用,保护宿主DNA免受降解,调节DNA表达。目前的实验技术昂贵又费力。传统的基于机器学习的方法依赖于手工提取的特征,但是新方法通过利用学习特性而节省了时间和计算成本。在这项研究中,我们提出了i4mC-Deep,这是一个基于卷积神经网络(CNN)的智能预测器,可以预测DNA样本中的4mC修饰位点。提取DNN序列的核苷酸化学特性和核苷酸密度特征,作为CNN的输入数据。提出的方法的结果优于几个最先进的预测器。用i4mC-Deep方法分析地下黑麦草DNA,与传统预测相比,准确率(ACC)提高了3.9%,MCC提高了10.5% 。

2.背景

最近,一些计算工具已经被开发用于识别4mC位点,包括iDNA4mC,4mCPred,4mCPred-SVM和SOMM4mC。所有这些工具都是基于机器学习技术和手工制作的功能。iDNA4mC使用核苷酸化学特性和核苷酸频率作为特征向量结合支持向量机(SVM)来检测4mC位点。4mCPred和4mCPred-SVM也使用的是支持向量机,但有不同的特征表示,4mCPred利用两种特征编码技术,即位置特异性三核苷酸倾向(PSTNP)和三核苷酸的电子-离子相互作用;4mCPred-SVM将四种特征应用于4mC位点的组合预测,即K-mer 二核苷酸频率、单核苷酸二进制编码、二核苷酸二进制编码和局部位置特异性二核苷酸频率。SOMM4mC应用经典的一阶和二阶马尔可夫模型来预测4mC表观遗传修饰位点,并显示出比前面提到的其他工具更好的性能。此外,4mCCNN和DeepTorrent是基于深度学习的技术。4mCCNN采用One-hot编码的数据表示和卷积神经网络。DeepTorrent使用了四种带卷积和LSTM层的特征提取技术。以往的深度学习模型采用复杂结构,增加了参数和计算量。
在这项研究中,作者使用了一个卷积神经网络(CNN)来开发一个精确而有效的计算工具。CNN包括:卷积层(convolution)、批次归一化层(batch normalization)、扁平化层(Flatten)、丢失层(Dropout)和全连接层(Dense),卷积层用于自动提取编码的DNA序列中的重要特征。作者用核苷酸化学性质(NCP)和核苷酸密度(ND)方法编码输入的DNA序列,然后使用批次归一化和Dropout控制过拟合,最后利用全连接层将DNA序列分为4mC位点和非4mC位点。使用10倍交叉验证技术来评估 i4mC-Deep,i4mC-Deep的结果优于以前的工具。i4mC-Deep的架构如图1所示。作者还开发了一个免费的在线网络服务器。
在这里插入图片描述

2.数据

数据集在开发高效可靠的计算工具方面起着非常重要的作用。作者利用了6个不同种类的原核生物和真核生物、Caenorhabditis elegans, Drosophila melanogaster, Arabidopsis thaliana, Escherichia coli, Geoalkalibacter subterraneus, and Geobacter pickeringii.的数据。这些数据集是使用MethSMRT数据库构建的。基准数据集包括1554、1769、1978、388、906和569个阳性和阴性样本。六个数据集中的每个序列都有一个位于中心的胞嘧啶© ,长度为41碱基。
在这里插入图片描述

3.方法

3.1 特征编码

  • 核苷酸化学性质 (nucleotide chemical properties,NCP)
    在这里插入图片描述
  • 核苷酸密度(nucleotide density,ND)
    DNA序列中每个核苷酸的频率信息。

3.2 模型

参数选择范围:
在这里插入图片描述
最佳参数:卷积层为2,两层滤波器大小为8,两层的填充量为“same”,两层的内核大小为3,丢失概率为0.3。
应用 l2正则化和 dropout 正则化来避免网络的过拟合,使用学习率为0.001的Adam优化器,batch size最佳为32,设置的迭代次数(epochs)为200,可提前停止。

4.结果

4.1 与其他最先进方法比较

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.2 序列分析

t-SNE可视化:
在这里插入图片描述
电子突变分析中的热图:
在这里插入图片描述
在这里插入图片描述
突变对预测概率的影响:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.Web服务器

链接:http://nsclbio.jbnu.ac.kr/tools/i4mC-Deep/
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值