论文解读:《Deep4mC:通过深度学习对DNA N4-甲基胞嘧啶位点进行系统评估和计算预测》

文章地址:https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbaa099/5856341
DOI:https://doi.org/10.1093/bib/bbaa099
预测及数据:https://bioinfo.uth.edu/Deep4mC/Download.php?csrt=10527482087686129691
服务器:https://bioinfo.uth.edu/Deep4mC

1.文章概括

DNA N4-甲基胞嘧啶(4mC)修饰代表一种新型的表观遗传调控。它涉及各种细胞过程,包括DNA复制,细胞周期和基因表达等。除了对4mC位点的实验鉴定外,在基因组中对计算机中4mC位点的计算机预测已成为一种替代且有希望的方法。系统地评估了八种常规机器学习算法的预测能力以及先前在六个物种中常用的12种特征类型。使用代表性的基准数据集,研究了特征选择和堆叠方法对模型构建的贡献,发现特征优化和适当的强化学习可以改善性能。收集了六个物种基因组中新添加的4mC位点,并开发了一种新型的基于深度学习的4mC位点预测因子,即Deep4mC。 Deep4mC应用具有四个代表性特征的卷积神经网络,对于样本数量较少的物种,使用自举方法扩展了深度学习框架。结果表明Deep4mC可以在所有物种中的曲线下平均面积(AUC)值大于0.9的情况下获得较高的精度和鲁棒的性能。相比之下,与这六个物种中的先前工具相比,Deep4mC的AUC值从10.14%提高到46.21%。建立了一个用户友好的Web服务器(https://bioinfo.uth.edu/Deep4mC),用于预测基因组中假定的4mC位点。

2.关键点

  • 对DNA N4-甲基胞嘧啶(4mC)位置预测的现有工具进行了全面评估,特别是在特征工程和分类算法构建方面。
  • 两步特征选择策略和堆栈框架可以增强特征表示,并有助于提高4mC站点预测的性能。
  • 开发了一种新型的基于深度学习的4mC站点预测器,即Deep4mC,其中集成了具有注意力机制的卷积神经网络
  • 开发了一个门户网站(https://bioinfo.uth.edu/Deep4mC)用于在线预测4mC站点。

3.背景

基因组测序技术的飞速发展使得高分辨率检测DNA化学修饰的功能性影响成为可能。通过DNA甲基转移酶催化,甲基碱基修饰,例如N4-甲基胞嘧啶(4mC),5-甲基胞嘧啶(5mC)和N6甲基腺嘌呤(6mA),在不同物种的基因组中占DNA修饰的很大一部分。表观遗传修饰极大地扩展了各种生物学过程中基因组组织和调控的多样性。在真核基因组中,DNA 5mC修饰已被广泛探索,以证明5mC的动态调节在调节染色质结构和基因表达中起着关键作用。尽管以前主要将6mA修饰视为原核生物的修饰,但最近的研究也揭示了6mA修饰在真核生物基因组中的分布和调控功能。除了5mC和6mA的DNA修饰外,据报道4mC是有效的表观遗传修饰,可保护其自身DNA不受限制性酶介导的降解作用。通过在DNA的胞嘧啶第4位添加一个甲基,4mC修饰在DNA复制,细胞周期和基因表达水平的调节中起着重要作用,并参与基因组的稳定,重组和进化。到目前为止,对4mC修饰的识别和对它的作用的理解仍然受到限制,尤其是在实验产生的数据非常有限的情况下。因此,强烈需要开发一种能够有效识别或预测基因组中4mC位点的方法。
已经开发了几种用于鉴定4mC位点的实验方法。在2010年,第三代测序的主流平台,单分子实时测序(SMRT)成为一种流行的方法,具有长读测序和检测DNA修饰的优势。此后,SMRT已被广泛应用于从多个细菌基因组中未知DNA序列中检测到的4mC位点。后来,Yu等人引言了一种称为4mC-Tet辅助亚硫酸氢盐测序的下一代测序方法,可以快速,经济高效地检测细菌物种中的全基因组4mC基因座。 Rathi等人应用转录激活因子样效应子方法揭示了DNA序列中的4mC位点。随着实验性4mC研究数量的增加,已知4mC站点的收集和整合逐渐成为共享和挖掘这些数据的重要研究课题。 Ye等人根据公开的156种SMRT测序数据集,开发了MethSMRT数据库,MethSMRT是第一个承载DNA 6mA和4mC甲基基因组的资源。后来,建立了DNAmod数据库来注释所有经过修饰的修饰DNA碱基(包括4mC)的化学性质和结构,这使研究人员能够检查以前的研究和鉴定方法。最近,Liu等人使用SMRT测序数据集发布了MDR数据库,用于为蔷薇科家族管理DNA 6mA和4mC修饰。
虽然这些高质量的数据集尽管仍然有限,但为通过计算方法识别DNA序列中潜在的4mC位点提供了机会,类似于CpG甲基化和6mA修饰的预测。作者首先总结了4mC站点计算预测的当前进展,并在此基础上,开发了一种新型的基于深度学习的特定于物种的4mC站点预测器,即Deep4mC。

4.材料和方法

工作包括三个部分(图1):(i)从六个生物中编译出两个4mC站点基准数据集; (ii)使用12种类型的序列和理化性质特征(参见下文)将基准数据中的DNA序列转换为数学向量,然后评估这些特征,多种机器学习算法和两种模型构建方法;(iii)通过具有注意机制的深层CNN开发Deep4mC。
在这里插入图片描述

5.数据收集与预处理

为了促进公平比较并建立强大的预测模型,从六个物种(包括拟南芥,秀丽隐杆线虫,黑腹果蝇(melanogaster),大肠杆菌,皮克宁氏菌(pickeringii)和(subterraneus)汇编了两个4mC站点的基准数据集。基准数据1首先由Chen等人处理。从MethSMRT数据库中获得,该数据库包含6163种通过实验鉴定的4mC位点:六个物种:拟南芥中1978个,线虫中1554个,黑腹果蝇中的1769个,大肠杆菌中388个,Pickeringii中569个,subterraneus中的905个。该数据集已在当前可用的预测工具中广泛使用,并经过预处理以去除具有高度相似性的序列。从MethSMRT数据库中重新收集了相同六个物种的基准数据2。每个4mC位点由一个41个碱基对(bp)的DNA片段表示,分别在4mC位点的上游和下游具有20碱基对(bp)的侧翼区域。作者遵循Chen等人的方法执行了两个严格的过滤程序,以确保基准数据集的可靠性。首先,根据甲基化组分析技术说明,要求所有4mC位点的修饰置信度得分(QV)为30或更高。其次,排除了序列相似性超过其他70%的4mC位点。使用CDHIT软件计算相似度得分。经过这些质量检查步骤后,获得了具有实验意义的非冗余数据集,具有285851个4mC站点。阳性数据集中的拟南芥、秀丽线虫黑色素瘤、大肠杆菌、Pickeringii和地下G.subnerneus中m4C位点的数量分别为111927、60662、90333、2067、5727和15135。对于具有超过50000 4mC位点的三个物种(拟南芥,秀丽隐杆线虫和黑腹果蝇),随机选择与阳性样品(Ps)数量相同的阴性样本(Ns)来构建平衡数据集。值得注意的是,SMRT测序技术未检测到N。对于其余的物种,随机选择的阴性样本(Ns)是阳性样品(Ps)数量的五倍。在每个物种中,已编译的数据集分为训练数据集(占总样本的90%)和独立数据集(占总样本的10%)。这些收集和处理的基准数据集可以从https://bioinfo.uth.e
du/Deep4mC/Download.php
下载。

5.1 特征编码方案

根据序列和理化特性设计和测试了总共12种类型的特征。

5.1.1 累积核苷酸频率(ANF)

累积核苷酸频率(ANF)特征编码系统表示核苷酸密度和DNA片段中每个核苷酸的分布。首先定义DNA 4mC序列,即DCS(m,n),以代表每个4mC片段,其中胞嘧啶上游有m个核苷酸,下游有n个核苷酸。在本文的情况下,每个4mC段都表示为DCS(20,20)。根据以下公式计算DCS(20,20)中每个位置的密度:
在这里插入图片描述
其中nj代表第j个位置的核苷酸,q∈{A,C,G,T}。以“ CACAGTCG”的序列为例,当l=3时,第l个位置的核苷酸为C,该位置的密度计算为:
d3=1/3在这里插入图片描述
可以类似地计算所有41个位置的密度。

5.1.2 二进制(Binary)

二进制提供DNA片段中核苷酸的位置特异性组成,例如DCS(20,20)。每个核苷酸由一个四位数的二进制向量编码。对于DCS(20,20),长度为164的数字矢量编码为:
在这里插入图片描述

5.1.3 K间隔核酸对的组成(CKSNAP)

K间隔核酸对(CKSNAP)特征的组成表示在DCS(20,20)片段中彼此相距K步的核苷酸对的组成。作者使用K = 0,1,2,3,4,5。在计算之后,计算了两个核苷酸分别位于i和i + K + 1位置的核苷酸对的频率,其中i = 1,…,(l − K − 1)和l = 41。例如,K=4步远的核苷酸CG代表以下情况:ACGTACGTACGT,其中C位于第2的位置,G位于第7位。因为与K无关,人类基因组中共有16个可能的核苷酸对(即“ AA”,“ AC”,“ AG”,“ AT”,“ CA”,“ CC”,“ CT”,“ CG” ,“ GA”,“ GC”,“ GG”,“ GT”,“ TA”,“ TC”,“ TG”和“ TT”),因此我们针对K = 0,1, 2、3、4和5,以及来自CKSNAP编码的总共16×6 = 96个特征。例如,对于K = 0,如下计算特征向量:
在这里插入图片描述

5.1.4 三核苷酸的EIIP

Nair等人计算出核苷酸中离域电子的能量为EIIP。将四个EIIP值设置为A:0.1260,C:0.1340,G:0.0806和T:0.1335。 EIIP编码直接使用代表DNA序列中核苷酸的EIIP值。因此,每个DCS(20,20)i的特征在于41维数字矢量为:
在这里插入图片描述

5.1.5 核苷酸组成(NAC)

核酸组成(NAC)反映了4mC位点周围序列片段的核苷酸频率。在这项研究中,NAC特征编码表示DCS中每种类型核苷酸的频率(20、20)。四个天然核苷酸(“ A”,“ C”,“ G”和“ T”)的频率可以计算为:
在这里插入图片描述
其中N(i)表示核苷酸类型的数目,N表示DCS的长度(20,20)。

5.1.6 二核苷酸组成(DNC)

二核苷酸组成(DNC)特征编码表示DCS(20、20)中连续二核苷酸对的组成。 DNC功能编码中有16个描述符,它们可以定义为:
在这里插入图片描述
其中Nij表示由核苷酸类型i和j表示的二核苷酸的数目。

5.1.7 三核苷酸组成(TNC)

三核苷酸组成(TNC)特征编码[29,30]表示DCS(20,20)中连续三核苷酸对的组成组成。 TNC功能编码中有64个描述符,例如(“ AAA”,“ AAC”,“ AAG”,“ AAT”,…,“ TTT”)64,可以将其定义为:
在这里插入图片描述
其中Nijk由核苷酸类型i,j和k表示的三核苷酸的数目。

5.1.8 增强的核酸组成(ENAC)

增强的核酸组成(ENAC)编码基于固定长度的序列窗口(在此研究中窗口大小设置为5)计算连续NAC,该序列从5’端连续滑动到3’端。每个核苷酸序列,通常可用于编码相等长度的核苷酸序列。 ENAC编码的维数由两个参数确定,包括序列长度和滑动窗口大小,可以计算为(序列长度-窗口大小+ 1)×4。因此,DCS(20,20)对应于4×(41-5 + 1)滑动窗口,其EAAC编码的矢量尺寸为4×37 =148。ENAC编码可定义为:
在这里插入图片描述
其中N为窗口大小,n等于序列长度-窗口大小+ 1。

5.1.9 Kmer

Kmer编码计算出DCS(20,20)中k个相邻核苷酸的出现频率,通常用于增强子识别和调控序列预测领域(2)。 Kmer(k = 4)描述符可以定义为:
在这里插入图片描述
其中Ni类型ID的数目表示DCS的长度(20,20)。

5.1.10 反向补码Kmer(Kmer)

反向互补Kmer(RCKmer)编码是Kmer描述符的一种变体,它计算DCS(20,20)中反向互补k邻近核苷酸的出现频率。例如,有16种类型的2聚体(即“AA”,“AC”,“AG”,“AT”,“CA”,“CC”,“ CT”,“CG”,“GA”,“GC”,“GG”,“GT”,“TA”,“TC”,“TG”和“TT”)。其中,“ TT”是对“ AA”的反向称赞。因此,RCKmer方法中只有10种类型的2聚体(即“ AA”,“ AC”,“ AG”,“ AT”,“ CA”,“ CC”,“ CG”,“ GA”,“ GC’和’TA’),即可删除反向互补的Kmers。

5.1.11 核苷酸化学性质(NCP)

DNA序列中有四种不同类型的核苷酸,每种核苷酸具有不同的化学结构和结合特性,而根据化学特性,所有类型的核苷酸可分为三大类:
在这里插入图片描述
结合这些化学特征,以下等式用于表示DNA序列中的第i个核苷酸:
在这里插入图片描述
根据化学性质,'A’可以编码为(1,1,1),'C’可以编码为(0,1,0),'G’可以编码为(1,0,0),'T’可以编码为(0 ,0、1)。

5.1.12 伪二核苷酸组成(PseDNC)

伪二核苷酸组成(PseDNC)特征编码可以将局部序列顺序和全局序列顺序信息覆盖到DCS(20,20)的特征向量中。 PseDNC编码定义如下:
在这里插入图片描述
其中fk(k = 1,2,…,16)反映了DCS(20,20)中二核苷酸的归一化出现频率,λ代表沿着DCS(20,20)的相关性的最高计数等级,w (0-1)是权重因子,θj(j = 1,2,…,λ)是j层相关因子,定义如下:
在这里插入图片描述
定义相关函数的位置:
在这里插入图片描述
其中μ表示理化指标的数目。这项工作考虑了六个物理化学指标,包括上升,滚动,移动,滑动,倾斜和扭曲。 Cu(RiRi+1)是二核苷酸RiRi+1在位置i的第u个理化指标的数值,Cu(RjRj+1)表示二核苷酸RjRj+1在位置j的对应值。

5.2 通过递归特征消除的两步特征选择策略

特征选择是消除噪声特征并提高性能的关键步骤。在这项研究中,作者执行了两步特征选择过程以识别最突出的特征向量。在第一步中,进行了统计测试(用于定量​​特征的t检验和用于分类特征的卡方检验),以识别与目标标签相关联的特征。因此,该过程生成了特征等级的索引,以指示其分类重要性。在第二步中,采用递归特征消除方法通过每个循环递归消除少量最弱特征来确定最佳特征表示。更具体地说,为了确定最佳组,每次将排名指数从较低等级到较高等级的批次(批次大小= 10)消除,其中重要性最低的特征将被逐渐修剪。选择其余功能可在10倍CV上反复重建基于SVM的预测模型。最后,以AUC值衡量的具有最佳性能的特征子集被选作构建预测模型的最佳特征子集。

5.3 堆叠框架的开发

堆栈框架从对八种经典机器学习算法的全面评估开始,然后是将来自每个分类器的预测进行集成的整体方法。八个分类器包括AdaBoost(AB),决策树(DT),梯度提升(GB),K近邻(KNN),逻辑回归(LR),随机森林(RF),随机梯度下降(SGD)和支持向量机(SVM)。作者使用12种类型的特征训练了每种分类算法,并根据10倍CV计算了AUC值以评估性能。重复此过程10次,以确保结果的可靠性。此外,对于每种分类算法,使用scikit-learn v0.21.3的RandomizedSearchCV进行超参数优化,以获得最佳模型。作者为每种测试算法获得了每种物种的最佳特征子集。获得了六个测试算法的预测模型,包括AB,GB,LR,RF,SGD和SVM,而KNN和DT这两个算法由于性能相对较差而从进一步的分析中删除。
在第二部分中,作者实现了一个堆栈框架,以改进模型的构建。这六种算法的输出(即预测的概率)被视为经过五轮学习的这些机器学习算法的输入。选择具有最佳性能(AUC值)的模型作为最终预测模型。计算了灵敏度(Sn),特异性(Sp)和马修斯相关系数(MCC)的三个测量值,以评估预测性能。定义了三个测量值,如下所示:
在这里插入图片描述
进行了4倍,6倍,8倍和10倍CV。这项研究还计算了接收器的工作特性iiik曲线(ROC)和AUC值。

5.4 Deep CNNs 结构

近年来,作为一种前沿技术,深度学习已广泛用于许多应用中,例如自然语言处理,图像识别和许多生物信息学研究。深度学习的框架基本上是由多个非线性层组成的人工神经网络。在生物信息学领域,基于深度学习的方法,包括CNN,已成功地用于预测蛋白质的磷酸化位点,RNA修饰位点和病毒整合位点。 CNN通常包含多个部分,包括输入层,卷积层,完全连接层和输出层。在这项工作中,我们设计了带有输入层,几个卷积层,注意层和输出层的模型。我们使用整流线性单位(ReLU)作为激活函数:
在这里插入图片描述
其中x表示神经元的加权和。
具体来说,输入层接受带有标签和代表性特征的训练数据集,并采用卷积层进行特征提取和表示。注意层被包括在内,以捕捉DCS的潜在重要性(20,20)。注意层将最后一个卷积层的特征表示作为输入,并计算出分数,表明神经网络是否应更多关注该位置处的特征。随后,将由卷积层捕获的特征向量和注意力得分进行积分,并将其输入到LR分类器中,以获取表示4mC站点概率的输出得分,可以将其定义如下:
在这里插入图片描述
其中y表示从卷积特征向量和注意力得分的组合中得出的S形节点的输入。预测得分在0到1之间,代表DCS(20,20)成为4mC站点的可能性。
对于具有不平衡的Ps和Ns的物种,作者通过自举方法扩展了我们的体系结构。首先,从基准数据集中选择相同数量的Ps和Ns,以基于此平衡数据集构建一个模型。为了充分训练所有Ns,将根据PS将所有Ns划分为t个区间。执行自举迭代(t = 5)生成一个分类器。重复该过程五次以产生五个分类器。当预测一个查询站点的4mC时,五个分类器计算的平均输出将作为最终预测。

6.结果

6.1 对4mC DNA站点的计算机模拟:当前进展

列举了当前4mC位点的计算鉴定的方法,当前方法已经采用了序列和理化特性的多种特征以及分类算法。然而,目前尚不清楚在不同物种中哪些功能最有用,哪些机器学习算法最突出。因此,非常需要对特征贡献以及不同分类器对不同特征的预测能力进行系统分析。这样的研究将为将来的DNA 4mC位点的生物信息学研究提供实用指南。

6.2 基于多种机器学习算法的12个特征的成对评估

为了评估单个特征对4mC位点预测的贡献,首先对不同物种中的4mC修饰位点进行了序列偏好分析。在不同物种的4mC修饰的序列模式中发现了很大的差异。然后,对12个功能部件进行编码,包括九个基于序列的功能部件(ANF,二进制,CKSNAP,DNC,ENAC,Kmer,NAC ,TNC和RCKmer)以及三种基于物理化学性质的特征(EIIP,NCP和PseDNC)。使用八种分类算法(即SVM,RF,LR,AB,SGD,DT,KNN和GB)成对评估所有功能。尽管不同特征的性能因不同物种的分类器而异,但对不同特征的研究结果表明,所有AUC值均大于0.5,这表明所有序列和理化特征对于4mC位点的预测都是有效的和有益的。
在这里插入图片描述
此外,还研究了八种分类算法的预测能力(图2)。根据结果,SVM代表最强大的分类器,在不同物种的12种特征中,平均AUC值为0.7662。其他算法(即LR,SGD,RF和GB)也表现良好,平均AUC值分别为0.7582、0.7578、0.7570和0.7531,而KNN和DT算法表现最差。此外,每种分类算法的单个特征的AUC值都是基于10倍CV进行计算和说明的(图2)。结果表明,在拟南芥中,NCP,二进制,ENAC和EIIP编码在多种分类算法中均具有较高的性能。秀丽线虫黑色素瘤,大肠埃希氏菌和地下亚种,平均AUC值分别为0.8445、0.8421、0.8035和0.7922。其他功能(例如TNC,CKSNAP,RCKmer,Kmer,PseDNC和DNC)的性能竞争力较弱,平均AUC值介于0.6746(NAC)至0.7360(TNC)之间。在这五个物种中,ANF编码的平均AUC值最低(0.5968)。对于Pickeringii,除ANF外,所有功能在多种分类算法中均表现良好。综上所述,作者的结果表明,12种类型的序列和理化特征都具有信息意义,而SVM是4mC站点预测最强大的分类算法。

6.3 两步特征选择策略有助于提高性能

不同的特征不平等地影响了模型性能,从而导致机器学习中不可避免地要进行特征优化。为此,作者通过4mC的递归特征消除方法执行了两步特征选择对于每个物种的预测。对于每个特征向量,作者计算了卡方统计量以评估其与目标标签的关联。然后,通过减少卡方值对所有特征进行排名。依次修剪排名较低端的特征。
在这里插入图片描述
图3显示了10倍CV的AUC值随特征选择轮而变化的情况,最佳性能由每条曲线中的红点突出显示。每个物种的最佳特征数分别为拟南芥中的313个,秀丽隐杆线虫的253个,黑腹果蝇的313个,大肠埃希氏菌的6个,大肠杆菌中的153个,地下G的233个。作者发现了所有物种的特征优化的共同趋势,即模型的性能在开始时就急剧增加,达到性能的最高点,然后逐渐降低。这些结果表明递归特征消除策略可以有效地提高性能。更具体地说,以大肠杆菌为例,使用t分布的随机邻居嵌入方法探索数据分布。如图3所示,与使用所有特征的分布(图3G)相比,在特征选择后(图3H),可以更好地区分正(4mC位置)和负(非4mC位置)数据点。通过执行递归特征消除过程,特征空间趋于相对稳定,其中特征空间中的Ps和Ns之间的区别更加清晰。

6.4 堆叠策略提升了性能

在堆叠框架中,仅考虑了6种机器学习算法,即RF,LR,AB,GB,SGD和SVM,因为它们对12种特征编码具有高性能,而KNN和DT的分类器则被丢弃。基于最佳特征组,将从六个模型输出的预测概率视为第二个特征向量,并再次输入到六个不同的分类器中,以开发其对应的五轮堆叠模型。选择性能最佳(AUC值)的模型作为构建Deep4mC的最终预测模型。
在这里插入图片描述
与原始模型相比,作者发现除了在大肠杆菌中使用SVM分类器之外,堆叠模型还可以改善性能(图4)。特别是对于RF分类器,堆叠模型使AUC值提高了3–7%。对于SVM分类器,性能改进不如RF大,但对最终模型的构建也有一定贡献。
在这里插入图片描述
在堆叠框架中,模型的性能并不总是随着学习次数的增加而增加。作者发现,尽管不断优化模型的参数(因为要素输入不同),但大多数堆叠模型都是第二次达到峰值,然后逐渐下降。此外,作者通过SVM算法对单个特征进行单独训练比较了堆叠模型,并观察到堆栈模型提高了这些物种中所有基准数据集的预测性能(图5)。综上所述,与最佳基准模型相比,堆栈模型提高了性能,表明堆栈策略可以结合多个预测变量的优势,从而提高性能。

6.5 Deep4mC准确预测DNA 4mC位点

在上述审查和评估的基础上,作者开发了一种新的基于深度学习的DNA 4mC站点预测因子,即Deep4mC,它具有注意力机制。从序列档案编码的四个代表性特征(包括二进制,ENAC,EIIP和NCP)被用作输入。然后,跟随两个没有池化功能的卷积层以执行特征提取和表示。添加了一个注意层以连接最后的卷积层和输出层。使用Hyperas软件包,使用树结构的Parzen估计器方法对每种物种的Deep4mC超参数进行了优化。具体来说,使用单独的训练和验证集执行了100次评估。补充表6中显示了跨不同物种的最佳参数。
在这里插入图片描述在这里插入图片描述
为了评估Deep4mC的准确性和鲁棒性,作者对每种物种的训练数据集进行了4倍,6倍,8倍和10倍CV(图6),发现Deep4mC达到了高性能:所有六个物种的多个CV的平均AUC值均大于0.9,范围为0.9005至0.9722(图6)。对于大肠杆菌,CV的4倍,6倍,8倍和10倍的AUC值分别为0.9736、0.9728、0.9697和0.9726。此外,秀丽隐杆线虫中多个CV的平均AUC值为0.9526,n倍CV在黑腹果蝇(0.9468),皮克灵芝(0.9235)和地下茶(0.9285)中也产生了相似的结果。 Deep4mC的不同CV结果高度一致,表明其前景看好准确性和强大的计算模型。
为了进一步展示Deep4mC的优越性,我们使用独立的数据集将Deep4mC与先前报道的4mC站点预测变量进行了比较。最近,已报道了两种新颖的预测因子,包括4mcPred-IFL [52]和Meta-4mCpred [53],其性能优于其他工具。但是,无法访问4mcPredIFL的Web服务器。因此,我们仅将Deep4mC与Meta-4mCpred进行了比较。我们将独立数据集提交给Meta-4mCpred的在线服务,并下载了它们的预测结果。然后,我们将Meta-4mCpred输出与我们的Deep4mC进行了比较,两者均基于相同的数据。如图6G和H所示,与Meta-6mCpred对这6个物种的结果相比,Deep4mC的AUC值从10.14(大肠杆菌)大幅度提高到46.21%(地下亚种)。更重要的是,使用每个物种中的独立数据集,我们计算了Sp(请参阅材料和方法)以调查假阳性问题。我们发现,与每种物种中的Meta-4mCpred相比,Deep4mC的Sp值较高(表明假阳性率较低)(图6I)。如上所述,比较证明了Deep4mC的鲁棒性和优越性。

7.讨论

在这项研究中,作者首先对用于预测DNA 4mC修饰位点的最新计算工具进行了全面评估。基于广泛用于所有先前工具的基准数据集,编码了12个特征,包括9个基于序列的特征和3个基于理化性质的特征。为了评估各个特征的贡献和各种机器学习算法的预测能力,所有特征均由八种分类算法中的每一种进行评估,并且使用10倍CV计算AUC值。结果表明,序列和理化特征对于4mC位点的预测都是有效和有益的,并且NCP,二进制,ENAC和EIIP这四个特征编码在这些物种的多种分类算法中均具有较高的性能。对于分类算法,SVM可以在各种物种的12种特征中显示最强大的分类器,其次是LR,SGD,RF和AB。多个要素包含大量尺寸,但是对于模型性能而言,它们并不是同等重要的。因此,作者还探讨了两步特征选择方法是否可以提高模型准确性。实验结果表明,递归特征消除有助于特征表示,并有效提高了性能。根据每个物种的最佳特征子集,进一步引入了一个堆栈框架,该框架结合了来自六种先进的机器学习算法的预测概率,作为新的特征向量来训练新模型。结果表明,该堆叠策略可以结合多个预测变量的强度,从而提高性能。
除了上述审查和调查外,作者还收集了六个物种基因组中大量新增的4mC位点,并开发了一种新颖的在线工具Deep4mC,用于识别不同基因组中的4mC位点。多重CV和与先前工具的比较结果证明了Deep4mC的强大功能和优越性。为了更好地服务于更广泛的生物医学研究社区,已实现了Deep4mC的在线Web服务器,并可从https://bioinfo.uth.edu/Deep4mC免费访问。为了将来对DNA 4mC位点进行预测,应保留包括Deep4mC在内的当前可用工具,以促进研究。此外,将不断收集新物种中新发现的DNA 4mC位点,以构建新颖的计算模型,以更好地预测和验证计算方法。然而,由于较少的实验研究,目前的预测方法仍然存在局限性,仅考虑序列信息和化学性质。当这些4mC位点的数据可用时,应考虑更多信息,例如结构信息和基因表达信息。尽管已经鉴定出稳定的DNA 4mC位点流,但是大多数这些位点及其底物的生物学或调控功能仍然未知。因此,将计算预测和实验验证相结合将为未来4mC角色的功能研究提供更多有见地的线索。

  • 3
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值