目录
Dna 受到 n4- 甲基胞嘧啶(4mc)分子的表观遗传修饰。N4- 甲基胞嘧啶在 dna 修复和复制中起重要作用,保护宿主 dna 免受降解,调节 dna 表达。然而,尽管目前的实验技术可以识别4mc 位点,但这种技术是昂贵和费力的。因此,能够预测4mc 位点的计算工具对于理解这种重要类型的 dna 修饰的生物学机制将非常有用。传统的基于机器学习的方法依赖于手工制作的特性,但是新方法通过利用学习特性而节省了时间和计算成本。在这项研究中,我们提出了 i4mc-deep,这是一个基于卷积神经网络(cnn)的智能预测器,可以预测 dna 样本中的4mc 修饰位点。Cnn 能够在训练过程中从输入样本中自动提取重要特征。核苷酸的化学特性和核苷酸密度,共同代表一个 dna 序列,作为 cnn 的输入数据。提出的方法的结果优于几个最先进的预测器。用 i4mc-deep 法分析地下黑麦草 dna,与传统预测相比,准确率提高了3.9% ,mcc 提高了10.5% 。
1.介绍
在 dna 修饰中,甲基化是一个基本的表观遗传标记,在生物过程中扮演着重要的角色,例如基因铭印、保持染色体稳定性、 x 染色体失活、细胞周期进程和调节基因表达[1,2]。胞嘧啶甲基化已经在真核生物和原核生物的基因组中被广泛研究,它可以产生5-甲基胞嘧啶、3-甲基胞嘧啶和 n-4-甲基胞嘧啶等碱基。5mc 是通过在胞嘧啶的 c5位置加入一个甲基(dnmt)而产生的,而3甲基胞嘧啶是由于环境烷基化剂的作用[3,5]。已知5mc 在各种生物功能中起重要作用[6,7] ,并与糖尿病、癌症和神经系统疾病相关[8-10]。在细菌 dna 中,甲基化 dna 核酸酶4mc 已被广泛研究,但4mc 修饰位点的确切机制和生物学功能仍然有限[10]。
与5mc 相比,4mc 的研究相对较少,它有几个作用,如纠正和控制 dna 复制,基因表达水平和细胞周期[2,11]。表观遗传胞嘧啶核酸酶(4mc)的鉴定有多种实验技术,即全基因组亚硫酸盐定序、简化表达亚硫酸盐定序、质谱法、转录激活因子样效应子(tales)和单分子实时测序(smrt)[12-14]。尽管这些实验技术足以确定4mc 位置,它们昂贵而费力。因此,一种预测大规模基因组序列中4mc 修饰位点的有效计算方法将对该领域大有裨益。在过去的十年中,深度学习方法在许多领域取得了显著的成绩,例如图像识别[15-17]、语音识别[18]、自然语言处理[19]和生物信息学[20-24]。
最近,一些计算工具已经被开发用于识别4mc 位点,包括 idna4mc [25] ,4mcpred [26] ,4mcpred-svm [27]和 somm4mc [28]。所有这些工具都是基于机器学习技术和手工制作的功能。Idna4mc 使用一个具有核苷酸化学特性和核苷酸频率的支持向量机(svm)作为特征向量来检测4mc 位点。4mcpred 和4mcpred-svm 也使用支持向量机,但有不同的特征表示机制。4mcpred 利用两种特征编码技术,即位置特异性三核苷酸倾向(pstnp)和三核苷酸的电子-离子相互作用赝势位,将 dna 样本编码为离散值载体。4mcpredsvm 将四种特征应用于4mc 位点的组合预测,即 k-mer 二核苷酸频率、单核苷酸二进制编码、二核苷酸二进制编码和局部位置特异性二核苷酸频率。4mc 应用经典的一阶和二阶马尔可夫模型来预测4mc 表观遗传修饰位点,并显示出比前面提到的其他工具更好的性能。此外,4mccnn [29]和 deeptorrent [30]是基于深度学习技术。4mccnn 采用单热编码的数据表示和卷积神经网络。Deeptorrent 使用了四种带卷积和 lstm 层的特征提取技术。以往的深度学习模型采用复杂结构,增加了参数和计算量。因此,我们需要设计一个更有效的模型,用于4mc 地点的识别。
在这项研究中,我们使用了一个卷积神经网络(cnn)来开发一个精确而有效的计算工具。Cnn 基于几个层次,包括卷积层、批量归一化层、平坦层、丢失层和密集层。卷积层用于自动提取编码的 dna 序列中的重要特征。我们应用核苷酸化学性质(ncp)和核苷酸密度(nd)方法编码输入的 dna 序列[25,31,32]。此外,我们使用批量归一化和丢失层控制过拟合。最后,我们利用具有sigmoid激活的密集层将 dna 序列分为4mc 位点和非4mc 位点。我们在生物信息学领域应用标准评估指标的10倍交叉验证技术来评估 i4mc-deep。I4mc-deep 的结果优于以前的工具。I4mc-deep 的架构如图1所示。最后,我们开发了一个免费的在线网络服务器,以促进学术界和工业界的研究,该服务器可于2021年7月15日在 http://nsclbio.jbnu.ac.kr/tools/i4mc-deep/上查阅,我们还提供了源代码, https://github.com/waleed551/i4mc-deep :。
图1. 构建模型的数据流程及架构的示范。
2. 材料和方法
这一部分包括基准数据集、建议的模型和评估措施。
2.1. 基准数据集
数据集在开发高效可靠的计算工具方面起着非常重要的作用。我们利用了6个不同种类的原核生物和真核生物、线虫、黑腹果蝇、拟南芥、大肠杆菌、亚地间地碱杆菌和革兰氏菌的数据。这些数据集是使用 MethSMRT 数据库[36]构建的。基准数据集包括1554、1769、1978、388、906和569个阳性和阴性样本。六个数据集中的每个序列都有一个位于中心的胞嘧啶(c) ,长度为41 nt。六个物种基准数据集的摘要载于表1。
表1. 六个物种基准数据集的摘要。
2.2. 深度学习法
在本研究中,我们使用了卷积神经网络(CNN)来预测DNA样本中的4mC修饰位点。CNN能够在训练过程中自动从输入样本中提取重要特征。DNA序列的CNN输入由核苷酸化学性质(NCP)和核苷酸密度(ND)编码。每个输入的DNA序列都有四种不同的化学性质,它们来自于基于氢键、官能团和环结构存在的三个基团。在二级结构形成过程中,A和T形成弱氢键,而C和G形成强氢键;G和T含有酮基,a和C含有氨基;C和T有一个环结构,而A和G有两个环结构。因此,这四个核苷酸的化学性质可以用三个坐标表示(x、y和z),每个坐标都可以赋值为0或1。因此,构成DNA序列的四个核苷酸可以用笛卡尔坐标系来表示。A、C、G、T的合成坐标分别为(1,1,1)、(0,0,1)、(1,0,0)和(0,1,0)。(对于环结构,A和G属于嘌呤,编码为1,C和T属于嘧啶,编码为0。对于化学功能,A和C属于氨基,编码为1; G和T属于酮基,编码为0。对于氢键,A和T属于弱氢键,编码为1,而C和G属于强氢键,编码为0。)核苷酸密度包含了特定DNA序列中每个核苷酸出现频率的信息。因此,我们将NCP和ND整合成一个4通道的特征向量。CNN有步骤或层,包括卷积层、激活层、归一化层、平坦层、丢失层和完全连接层。在训练过程中会调整几个超参数,比如过滤器大小、内核大小、步幅和丢失率。根据验证损失选取了最佳超参数。超参数网格搜索范围如表2所示。卷积层的最优超参数为2,两层的滤波器大小为8,两层的填充“相同”,两层的内核大小为3,dropout概率为0.3。这些层的数学表示如下:
我们采用了几种评价方法,即敏感性(SN)、特异性(SP)、准确性(ACC)和Mathew相关系数(MCC),以便对所提出的工具进行公平的评价。卷积层和一个密集层后面都有一个非线性函数整流线性单元(ReLU),而最后一个密集层后面是一个sigmoid激活函数,该函数将给定的DNA序列分类为4mC或非4mC位点。sigmoid激活函数将输出缩放到范围[0,1]。此外,我们采用l2正则化和dropout正则化来避免网络过拟合。该模型已使用Adam进行优化,学习率为0.001。所提模型的最佳批大小为 32,理想 epoch 数为 200,并提前停止。这个生物信息学工具是使用Keras框架在Python中实现的。
表2,调谐超参数的范围。
2.3. 评估措施
在这项研究中,我们应用四个被广泛用于二元分类任务的标准度量来评价生物信息学工具[37-43]的性能,即准确性(acc)、敏感性(sn)、特异性(sp)和马太相关系数(mcc)。数学上,这些测量表示如下:
N+代表甲基胞嘧啶位点,N−代表非甲基胞嘧啶位点,N−+表示被错误地识别为非甲基胞嘧啶位点的甲基胞嘧啶位点,以及N+−显示预测为甲基胞嘧啶的非甲基胞嘧啶位点的数量。
3. 结果和讨论
3.1. 与其他最先进的工具相比较
在这里,我们将提出的方法与其他最先进的工具进行了性能比较,包括iDNA4mC[25]、4mCPred[26]、4mCPred- svm([27])和SOMM4mC([28])。表3和图2展示了本文方法和现有方法四个基本评价指标的性能。图3为6个物种的工作特征曲线(receiver operation characteristic curve, ROC)以及十倍的标准偏差误差。正如在之前的研究中所做的那样,我们也使用了10倍交叉验证和类似的测量参数来实现公平的比较评价。结果表明,在所有基准数据集上,该方法的精度都优于现有的方法。其中,4mC-Deep将线虫基准数据集的分类准确率提高了1.0%,敏感度提高了3.5%,MCC提高了3.1%。在黑腹果蝇中,准确率提高2.1%,特异性提高0.6%,敏感性提高3.6%,MCC提高6.7%。在拟南芥中,准确率提高2.9%,灵敏度提高7.1%,MCC提高8.4%。在大肠杆菌中,4mC-Deep分别提高了0.8%、1.9%和0.1%的准确性、灵敏度和MCC。所有测量参数在亚地间地碱杆菌中均有所改善:准确性提高3.9%,特异性提高3.8%,敏感性提高4.0%,MCC提高10.5%。在革兰氏菌中,准确率、敏感性、特异性和MCC分别提高了2.3%、2.7%、2.0%和8.3%。正如我们所注意到的,前面的工具的特殊性比建议的工具要高。特异性(SP)表示对真阴性类的正确检测,而敏感性(SN)表示对真阳性类的正确检测。因此,对模型的特异性和敏感性都有很高的要求。如果我们看一下前一种方法的性能,灵敏度和特异度之间的方差更高,从而降低了模型的准确性和MCC。另一方面,与现有的工具相比,该工具的性能更高,因为灵敏度和特异性之间的方差更小。因此,很明显,我们提出的4mC-Deep工具在6个物种基准数据集上的结果优于所有现有工具。
表3。i4mC-Deep与现有4mC站点计算工具的性能比较。
图2。显示了该工具与现有其他最先进工具的性能比较。
图3。演示测试数据集接收器工作特征曲线(ROC)的十倍及其标准偏差。
最后,我们将所提出的模型与我们之前发表的方法DNA4mC-Deep [44]进行了比较,该方法是为F. vesca和R. chinensis提出的。我们在这项研究中的六个物种上训练了DNA4mC-Deep。我们发现i4mC-Deep模型在几乎所有物种中的表现都更好。i4mC-Deep和经过训练的DNA4mC-Deep的比较结果见补充文件中的图S8和表S1。此外,我们测试了预先训练的跨物种模型DNA4mC-Deep,结果在补充文件中的表S2中给出。
3.2.。对建议工具的解释
对经过训练的模型的解释为生物学家提供了更好的理解手头任务的见解。为六个物种开发的模型学习了可分离的特征。这些可分离的功能使分类器的任务更容易,并有助于超越以前的方法。我们从研究中每个物种的每个训练模型中提取了从扁平层中学习的特征。此层表示模型在训练期间学习的特征。然后,我们使用 t 分布随机邻居嵌入 (tsne) 来可视化学习的特征。例如图 4显示了G. subterraneus模型的学习特征。可以看出,所提出的模型能够学习可分离的特征,因此与相同数据集的先进模型相比,实现的性能更胜一筹。在我们的研究中,从其他模型中获得了相同的行为,如补充文件中的图S1所示。
图4。利用所提出的模型对G. subterraneus数据集的学习特征进行t-SNE可视化."0"表示阴性样本的特征,"1"表示阳性样本的特征。
此外,我们还利用本研究所建立的六个物种的训练模型对其进行了电子诱变研究。这种方法被应用于各种研究[44-46] ,以解释突变的影响使用训练的深度学习模型。
对于每个输入序列 s = (s0,s2,... ,s40) ,我们通过将每个位置的核苷酸变异成另一个碱基,生成一个41 × 4矩阵。对于每一个基因突变我们计算了参考基因组和突变序列之间的绝对预测差异。
图5显示了电子突变分析中的热图,图2显示了我们研究中其他物种的补充文件。这些热图显示序列中心的突变可能对预测性能有最大的影响。
为了进一步分析结果,图 6在补充文件图S3-S7中显示了突变对G. subterraneus和其他物种预测结果的影响。可以看出,侧翼区域的突变,位置0至17和位置28至40,对预测性能影响很小。然而,位置18至27的突变改变了预测超过10%。预测中最明显的变化是由于在21号位置突变到鸟嘌呤(G)超过20%。
图5. 热图显示了G. subterraneus种类的硅突变。
图6. 突变对G. subterraneus的预测概率的影响
4. 网络服务器
我们为所提出的方法建立了一个用户友好且可自由访问的Web服务器,以促进未来的研究。已建立的 Web 服务器支持使用 Fasta 格式的直接序列对 4mC 站点进行分类,如 所示图 7,或直接上传 Fasta 文件,如 中所示图 8.Web服务器将Python编程语言与Flask库一起使用。它可在2021年7月15日访问的 http://nsclbio.jbnu.ac.kr/tools/i4mC-Deep/。
5. 结论
DNA N4-甲基胞嘧啶是调节基因表达的重要生化修饰。因此,开发了一种准确高效的计算工具i4mC-Deep来鉴定DNA序列中的4mC位点。i4mC-Deep具有分层架构,具有卷积层,批量归一化层,dropout层和密集层。NCP和DN技术用于将DNA序列编码为离散值。卷积层自动从给定的输入DNA序列中提取特征。应用超参数搜索来识别最佳参数。四个评估指标的结果表明,i4mC-Deep比同类工具更可靠、更高效。i4mCDeep工具对于学术界和工业界的研究人员来说将是无价的。最后,我们为所提出的方法开发了一个Web服务器,该服务器可在2021年7月15日访问的 http://nsclbio.jbnu.ac.kr/tools/i4mC-Deep 在线免费访问。