论文解读:《SDM6A:基于Web的集成机器学习框架,用于预测水稻基因组中的6mA位点》

本文介绍了一种名为SDM6A的新型计算框架,它通过系统性特征编码和集成策略,显著提高了在水稻基因组中预测6mA位点的准确性。文章详细阐述了数据收集、特征提取(包括序列衍生、理化特性和进化衍生)、模型构建与评估的过程,以及与现有预测器的性能比较。最终,SDM6A在独立数据集上展现了卓越的性能,为表观遗传研究提供了有力工具。
摘要由CSDN通过智能技术生成

文章链接:https://www.sciencedirect.com/science/article/pii/S2162253119302240
DOI:https://doi.org/10.1016/j.omtn.2019.08.011
服务器:http://thegleelab.org/SDM6A
数据集:http://thegleelab.org/SDM6A/SDM6AData.html
补充信息: https://doi.org/10.1016/j.omtn.2019.08.011
6mA站点下载:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE103145

1.文章概括

DNA N6-腺嘌呤甲基化(6mA)是原核生物和真核生物的表观遗传修饰。鉴定水稻基因组中的6mA位点在水稻表观遗传学和育种中很重要,但这些位点的非随机分布和生物学功能仍不清楚。几种机器学习工具可以识别6mA的位点,但是预测精度有限,这限制了它们在表观遗传研究中的可用性。所以作者开发了一种新型的计算预测器,称为基于序列的DNA N6-甲基腺嘌呤预测器(SDM6A),这是一种识别水稻基因组中6mA位点的两层集成方法。与基于具有基本功能的单个模型的现有方法不同,SDM6A探索了各种功能,并确定了五种适合此问题的编码方法。随后,从编码中识别出最佳特征集,并使用支持向量机和极端随机树分别开发相应的模型。首先,通过集成方法将所有五个单个模型集成在一起,以为每个分类器定义类。其次,两个分类器被整合以产生最终预测。 SDM6A在交叉验证和独立评估方面均具有出色的性能,其平均准确度(acc)和马修斯相关系数(MCC)分别为88.2%和0.764。相应的指标分别比现有方法高4.7%–11.0%和2.3%–5.5%。实施了一个用户友好,可公开访问的Web服务器(http://thegleelab.org/SDM6A),以预测水稻基因组中新的推定6mA位点。

2.介绍

分子生物学和基因组学领域的最新突破使得确定DNA修饰的功能意义成为可能。动态DNA修饰(包括甲基化和去甲基化)是调节基因表达的主要表观遗传机制。DNA甲基化位于胞嘧啶嘧啶环的第5位(5-甲基胞嘧啶[5mC])和腺嘌呤嘌呤环的第6位(N6-腺嘌呤甲基化[6mA]; N6-甲基腺嘌呤)分别是真核生物和原核生物中最常见的DNA修饰。5mC网站广为人知,因为它们显示出广泛的分布并发挥了多方面的作用。然而,由于6mA位点在整个基因组中的分布不均匀,因此尚未得到广泛研究。已经在单细胞真核生物中研究了6mA修饰的分布和功能。然而,直到最近,这些改变在多细胞真核生物中的性质还不清楚。多项新研究揭示了6mA修饰在多细胞真核生物中的分布和对比调节功能,例如秀丽隐杆线虫,丹尼奥雷利奥,果蝇,小家鼠,四膜虫和非洲爪蟾。
用于检测6mA位点的方法学的进步,数项研究证明6mA位点在原核和真核基因组中的DNA复制和错配修复、转座子活性、表观遗传、核苷酸分离以及转录调控方面具有重要的生物学作用。识别6mA位点的实验技术包括将免疫沉淀与下一代测序耦合,将限制性内切酶辅助测序与DpnI辅助的N6-甲基腺嘌呤测序,单分子实时(SMRT)测序,毛细管电泳和激光诱导荧光(CE-LIF) 基于4,4-二氟-5,7-二甲基-4-硼3a,4a-二氮杂-s-茚并三-3-丙酰基乙二胺(BODIPY FL EDA)的荧光标记,以及6mA特异的DNA免疫沉淀抗体。但是,这些方法通常计算强度大,并且对6mA表观遗传学的覆盖范围有限。由于高级轮廓分析技术的成本高昂且复杂,因此尚未在生物学研究中广泛使用。尽管如此,这些方法可以在6mA位置上提供的信息对于计算预测是必需的。
越来越多的新颖DNA序列和涉及6mA位点检测的实验复杂性要求开发新的高效计算方法。 机器学习(ML)方法用于自动化分析模型的构建,以进行快速,准确的结果预测。Zhou等人用质谱,免疫沉淀和测序技术检测了水稻(Oryza sativa)基因组的6mA图谱,该研究获得的信息允许在几个月内开发出三种基于ML的方法。 Chen等人开发了i6mA-Pred,这是第一种基于ML的水稻基因组中识别6mA位点的计算方法,i6mA-Pred是基于支持向量机(SVM)的方法,其中核苷酸(NT)的化学性质和频率用作编码DNA序列的特征,Chen等人使用刀切法交叉验证对他们提出的模型进行了评估,并获得了83.13%的准确性。该方法已经以在线Web服务器的形式公开提供。
另一个小组使用深度学习(DL)方法通过卷积神经网络识别6mA位置。这些发现也可以在Web服务器上公开获得。所提出的计算模型iDNA6mA的准确度和马修斯相关系数(MCC)分别为86.64%和0.732。在作者的研究过程中,Le等人通过Chou的5步法则开发了一种基于SVM的连续核碱基库方法,这些模型使用刀切法交叉验证进行了评估,其准确度和MCC分别为87.78%和0.756,该方法不是公开可用的,因此不能完全用作本研究的基本原理,尽管这些技术已表现出良好的性能,但它们不容易推广或转让。因此,仍然有必要开发一种有效的预测子,以准确鉴定水稻基因组中的6mA位点。
在这里插入图片描述
SDM6A的总体框架四个主要步骤包括:

  1. 数据收集和预处理;
  2. 使用两步特征选择协议进行特征提取和优化
  3. 参数优化和集成模型的构建
  4. 性能评估和Web服务器开发

基于序列的DNA N6-甲基腺嘌呤预测因子(SDM6A)是一种基于两层整体学习的预测因子,可正确识别水稻基因组中的6mA位点(图1),旨在解决现有方法中存在的挑战和局限性。通过探索九种不同的特征编码和四种不同的分类器,五种不同的编码(环功能氢化学[RFHC]特性,核苷酸的数字表示[NUM],单核苷酸二进制编码[MBE],双核苷酸二进制编码的组合)确定了本地特定位置的二核苷酸频率[DPE_LPF]和K最近邻[KNN]和两个分类器(SVM极随机树[ERT])。然后,从四个编码和这样使用的KNN编码中识别出最佳特征集,并使用SVM和ERT分类器独立开发了其相应模型。在第一层中,使用集成方法集成了五个单个模型,以为每个分类器定义一个类。在第二层中,将SVM和ERT集成在一起以开发最终预测模型。使用构建的独立数据集对SDM6A进行了进一步验证。我们的结果表明,所提出的模型以更高的预测精度优于以前的最新方法。作者还提供了一个名为SDM6A的用户友好型在线Web服务器,可以用作检测水稻基因组中的6mA位点的初步筛选工具。此服务可有效筛选水稻基因组中的6mA位点,从而加快并促进未来的植物育种和基因组研究。

3.数据与方法

3.1 数据收集与预处理

用Chen等人生成的高质量基准数据集来开发或训练预测模型,基准数据集包含880个6mA(正)样本和880个非6mA(负)样本,每个样本都拥有一个中央腺嘌呤NT,长度为41个碱基对。使用相关的修饰评分(ModQV)对每个阳性样品进行实验验证。如果ModQV得分高于30,则表明相关的腺嘌呤NT被修饰。由于没有经过实验验证的阴性样品,Chen等人根据Zhou等人的发现,使用含有GAGG图案的编码序列构建了一个阴性数据集,他们发现GAGG图案频繁出现6mA修饰,编码序列的富集程度降低。重要的是,基准数据集是非冗余的,使用CD-HIT可以将阴性或阳性样品中的序列同一性降至60%以下。
为了评估在这项研究中开发的预测模型,作者使用Chen等人的方法构建了一个独立的数据集。6mA站点下载,并且排除了ModQV得分低于30的样本,以及与基准阳性和阴性数据集共享大于60%序列同一性的样本。最后,获得了221个6mA序列,并补充了相等数量的阴性样品,这些阴性样品是从包含GAGG基序,腺嘌呤在中心且未通过SMRT-seq检测到的编码序列中获得的。值得注意的是,这些正样本和负样本中没有一个在独立和基准数据集中共享的序列同一性大于60%,从而排除了过高估计由序列同一性引入的预测性能的可能性。

3.2 特征提取

特征提取直接影响准确性和效率,是基于ML的模型开发中最重要的步骤之一。在这项研究中,提取的特征分为三类:(1)基于序列的特征;(2)基于理化的特征;(3)进化衍生的特征。

3.2.1 序列衍生功能

  1. 核苷酸的数值表示。
    Xu等人和Zhang等人最近提出了一种称为氨基酸的数字表示的功能,该功能已成功地用于预测翻译后修饰。基于这些先前的发现,对于NTs(NT,又叫碱基,是形成核苷的含氮化合物,核苷又是核苷酸的组分。碱基、核苷和核苷酸等单体构成了核酸的基本构件),氨基酸的数字表示被相应地修改。 NUM通过按字母顺序映射NT来将NT序列转换为数值序列。四个标准NT,即A,C,G和T,分别表示为0.25、0.50、0.75和1.0。每个NT的长度为41,上半部分20 NT,中央腺嘌呤,下半部分20 NT。但是,在计算过程中会忽略中央腺嘌呤;仅考虑上半部分和下半部分NT,从而产生40维向量。
  2. 单核苷酸二进制编码(MBE)
    MBE方法提供NT特定位置的信息,其中每个NT表示为0/1的4维二进制向量。例如,A,C,G和T分别用(1、0、0、0),(0、1、0、0),(0、0、1、0)和(0,0,0,1)。在这项研究中,对于给定的41 NTs序列长度,获得了164维向量。

  1. DBE_LPF
    该方法涉及两个部分:(1)二核苷酸二元编码(DBE)和(2)局部位置特异性二核苷酸频率(LPF),已成功地用于预测DNA序列中的N4-甲基胞嘧啶位点和RNA序列中的N6-甲基腺苷位点。DBE提供了二核苷酸的位置信息,每种二核苷酸的类型都由0/1的4维向量表示。例如,AA,AT和AC分别编码为(0,0,0,0),(0,0,0,1)和(0,0,1,0)。在这项研究中,我们获得了包含40个二核苷酸的给定序列(41个NT)的160维向量。 LPF可以计算为:f = 1 /|Mj|C(Yj-1Yj),2≤j≤K,其中K是给定的序列长度,Mj是序列中第j个前缀字符串{Y1Y2…Yj}的长度,而C(Yj-1Yj)是第j个前缀字符串的二核苷酸Yj-1Yj位置的频率。每个给定序列总共可以编码200个特征。

3.2.2 理化特性(环功能氢化学性质)

标准NT具有不同的化学性质,包括环,官能团和氢键。这些性质分为以下几类:(1)(A,G)和(C,T)分别包含一个和两个环;(2)(A,T)和(C,G)分别含有两个和三个氢键;(3)(A,C)和(G,T)分别含有氨基和酮基。为了包括这些特性,可以如下计算编码为4维向量(a,b,c,di)的给定DNA序列:

在这里插入图片描述
其中A,C,G,T分别由坐标(1、1、1),(0、0、1),(1、0、0),(0、1、0)表示。给定序列中NT(Ni)的密度(di)可以计算如下:

在这里插入图片描述
其中|Mi}||Ni|是从当前NT位置到第一个NT的长度,并且取四个标准NT中的任何一个。通过综合NT的化学性质和组成(结合上面两个等式),一个41NT序列被编码为164(4×41)维向量。

3.2.3 进化衍生特征

  • K近邻算法(KNN
    KNN编码会根据给定序列与正集合和负集合中的n个样本的相似性为该序列生成特征。对于两个局部序列P1和P2,相似性得分S(P1,P2)表示为:
    在这里插入图片描述
    其中P1(i)和P2(i)分别代表序列P1和P2的第i个NTs,而L是片段的长度,对于两个NTs a和b,相似性得分定义为相似度分数:
    在这里插入图片描述
    在这项研究中,我们使用n为2、4、8、16、32、64和128的值来生成给定序列的7维向量。
  • 功能优化
    用于提高分类性能的特征优化是机器学习的重要步骤之一。在这项研究中,使用具有序列前向选择(SFS)协议的F分数算法来过滤出嘈杂的和不相关的特征,此后一个子集选择了包含最佳功能的广告,此两步协议已成功应用于各种预测中。第一步,使用F-score算法对实际特征进行排名,并以降序对这些特征进行排序,从而生成排名特征列表。F-score的第i个特征定义为:
    在这里插入图片描述
    其中 x ‾ \overline x xi x ‾ \overline x xi(+) x ‾ \overline x xi(-)分别代表组合(正和负),正和负数据集中的特征的平均值。 n+和n-分别代表正样本和负样本的数量。 x ‾ \overline x xi,j(+) x ‾ \overline x xi,j(-)分别代表第j个正例的第i特征和第j个负例的第i特征。
    在第二步中,从排名的特征列表中选择了两个特征,并将它们作为输入特征顺序添加到四个不同的ML分类器(SVMERTRFXGB)中,这被用于训练和开发相应的预测模型。最终与最高精度模型相对应的特征被认为是各个ML分类器的最佳特征。
  • 机器学习算法
    在这项研究中,探索了四个不同的ML分类器,即SVM,ERT,RF和XGB。在这四种算法中,SD6MA仅集成了两个分类器,其余两种方法(RF和XGB)使用的参数搜索范围和实现与之前的研究相似。个Python软件包:scikit-learn(版本0.18.1)和xgboost都针对所有四个分类器实现。
  • 支持向量机(SVM
    SVM已被广泛应用于生物信息学和计算生物学领域,是最强大的ML算法之一。SVM的目的是找到一个最佳的超平面,该平面可以最大化高维特征空间中正负样本之间的距离。我们实现了径向基函数K(xi,xj)=exp(- γ \gamma γ|xi-xj|2)作为内核函数。使用网格搜索方法对正则化参数(例如SVM算法的惩罚参数C和内核参数 γ \gamma γ)进行了优化。这两个参数的搜索范围:2-5≤C≤215,步长为2;2-15 γ \gamma γ≤2-5,步长为2-1
  • 极随机树(ERT
    ERT是Geurts等人开发的一种强大的ML方法,已广泛用于各种基于序列的预测场景中。ERT被设计为通过结合更强大的随机方法来减少模型的方差。 ERT算法与RF算法相似,但有两个主要区别:(1)ERT不执行一个装袋程序,但是使用所有训练样本来构造具有不同参数的每棵树; (2)ERT不是在RF中使用的最佳分割,而是在构建每棵树时随机选择节点分割。网格搜索方法用于优化ERT算法的内部节点(n split)所需的树数(n tree),随机选择的特征数(m try)和最小样本数。这三个参数的搜索范围:50≤n tree≤2000,步长为25;1≤m try≤15,步长为1;1≤n split≤12,步长为1。
  • 交叉验证(Cross-Validation,CV
    在统计分析方法中,K折交叉验证已被广泛用于评估ML分类器的性能。在这项研究中,进行了10倍交叉验证测试以评估模型性能。在10倍CV中,基准数据集被随机分为10个大小相等的子集,每个子​​集包含相等数量的正样本和负样本。在每个验证步骤中,将保留一个子集作为验证集,以评估模型的性能,其余的9个子集用作训练集,重复此过程10次,直到每个子集至少用作验证集一次。然后将10个测试子集上的模型性能平均,从而提供10倍交叉验证测试中模型总体性能的估计值。
  • 绩效评估
    计算生物学和生物信息学领域常用的四组指标用于定量评估所提出方法的性能。这些指标包括灵敏度SN,SP,ACC和MCC,其计算方法如下:
    在这里插入图片描述
    其中TP是在预测中正确分类的6mA样本数,而TN表示通过预测变量正确分类的非6mA样本数。FP和FN分别代表错误分类的6mA或非6mA样本的数量。接收者操作特征曲线(ROC)曲线和ROC曲线下面积(AUC)用于评估整体性能。 ROC曲线与左角的接近程度决定了AUC值接近于1,表明总体性能更好。
    分类问题的评估指标:https://zhuanlan.zhihu.com/p/69101372

4.结果和讨论

4.1 评估不同特征编码的性能和鲁棒性

  • 用四种不同的机器学习分类器(RF,ERT,SVM和XGB)评估了五种不同特征编码(分为三类)的性能。对于每种特征编码方法,均使用10倍交叉验证(CV)和基于基准数据集的最佳调整参数来训练机器学习分类器。
    在这里插入图片描述
    上图显示,对于所有四个ML分类器,KNN特征编码均实现了最佳性能,并且优于其他编码。但是,其余四个编码(MBE,RFHC,NUM和DPE_LPF)仅在SVM的情况下性能有所不同。
  • 在独立的数据集上评估了20个预测模型(5个特征编码→4个ML分类器),以确定10倍CV性能的可传递性(鲁棒性)。
    在这里插入图片描述
    上图显示,在四个ML分类器中,KNN特征编码的性能最低,这与10倍CV的结果相反。计算了10倍CV和独立评估之间的准确性差异(DACC),以总结每个模型的鲁棒性。
    在这里插入图片描述
    上图显示,对于所有四个分类器,表明KNN编码在鲁棒性方面表现不佳( Δ \Delta ΔACC~14%)。使用MBE(84.6%)和RFHC(85.06%)编码的XGB,以及使用NUM编码的ERT(84.15%)和SVM(76.5%)的鲁棒性, Δ \Delta ΔACC <1.0;但精度不行。其余12个预测模型的鲁棒性也略有下降, Δ \Delta ΔACC <2.0。结果表明,使用不同的特征编码或不同的分类器无法生成可靠且高度准确的预测模型。
  • 其他四种编码方法:Kmer(单,双,三,四和五NT组成的线性组合,编码为包含1,364个元素的矢量),电子离子相互作用拟电位(PseEIIP),二核苷酸理化性质(DPCP)和三核苷酸理化性质(TPCP);这些都已经在先前的研究中得到了成功的使用。
    在这里插入图片描述
    上图表明,这四个特征编码均实现了较低的性能,其平均准确度比前面讨论的五个特征编码低了15%–23%,而与所使用的机器学习分类器无关。尽管这4种特征编码以前在很大程度上做出了贡献,包括4mC的位点预测,但它们在6mA的位点预测中并未发挥任何重要作用。因此,作者从随后的分析中排除了这四种编码。

4.2 确定四种特征编码的最佳特征

  • 原始功能集也可能包含冗余功能,所以为构建有效的预测模型选择最佳特征集。在这项研究中,针对四种特征编码,使用了两步特征优化策略,KNN特征编码由于其特征尺寸较小(7维)被排除在特征优化之外。
    在这里插入图片描述
    基于四个不同的编码从四个分类器的分级特征列表中逐渐增加了特征。对于三种特征编码(MBE,DPE_LPF和RFHC),ACC曲线逐渐改善并达到最大值,随后达到平稳状态;NUM编码迅速达到最大精度,然后下降。将产生最高准确度的功能集视为最佳功能集。
    在这里插入图片描述
    上表显示了四个不同分类器相对于最佳功能集所实现的最佳性能。
  • 验证特征优化策略是否提高了预测性能,将最佳特征的性能(在特征优化之后)与原始特征的性能(优化之前)进行了比较。
    在这里插入图片描述
    使用相应最佳功能的所有四种方法在其各自的性能上均得到了持续改善(上图A)。但是,改进的百分比因方法而异。与使用原始功能的各自性能相比,SVM,RF,ERT和XGB的平均性能分别提高了2.13%,0.73%,0.51%和0.4%。此外,与使用原始特征相比,最佳特征尺寸显着减小, SVM,ERT,RF和XGB最佳功能分别包含原始功能的42.9%,42.2%,53.2%和63.1%(上图B)。这些结果表明,特征优化可以有效减小特征尺寸,从而有助于改善渐进性能。

4.3 使用集成策略构建的评估模型

  • 与使用单特征编码或组合特征集训练的模型相比,集成学习策略可以显着提高模型的性能和通用性。使用集成策略将五个基于单个特征的模型集成在一起学习,对五个基于单个特征的模型的预测概率得分使用不同的权重进行求和,并且使用默认的截止阈值0.5来定义每个分类器的类别(五个不同权重的总和为1),可以使用网格搜索确定最佳值。
    在这里插入图片描述
    上表所示,分类器RF,ERT,SVM和XGB达到了相似的性能。但是灵敏度(SN)和特异性(SP)之间的差距有所不同。不是从上表中选择最终的预测模型,而是通过探索四个单独的基于机器学习模型的所有可能组合来生成集成模型。两种或多种方法的预测概率得分是用相等的权重取平均值的,然后对平均分数进行优化以定义类别。上表显示了集成模型(SVM和ERT的组合,在上表中表示为{2,3})达到了最佳性能,MCC和ACC分别为0.763和0.881。实际MCC和ACC比使用本研究开发的其他方法获得的结果分别高0.3%–1.1%和0.1%–0.7%。
  • SVM和ERT的组合({2,3})的性能可与采用i6mA-Pred和iDNA6mA等最新技术的预测指标相媲美。现有方法在与本研究中使用的基准数据集相同的基准数据集上进行了培训和验证(k倍交叉验证),与现有最佳预测变量iDNA6mA相比,最佳执行方法的ACC和MCC分别高出1.4%和3.01%。值得注意的是,i6mA-Pred报告了两个基于10倍CV和刀切法测试的预测结果。
    在这里插入图片描述
    为了将i6mA-Pred刀切法结果与我们的最佳模型SDM6A({2,3})进行比较,我们使用折刀测试重建了最佳模型。根据0.05的p值阈值,最佳模型明显优于i6mA-Pred(上表)。总体而言,这项研究中开发的预测器的性能提高表明,在区分6mA站点和非6mA站点时,它比其他最新的预测器更准确。

4.4 使用独立数据集的绩效评估

  • 以前,有几项研究提出了没有任何外部评估的预测模型。但是,当使用独立数据集进行客观评估时,这些方法可能无法获得与基准数据集相同的性能。在这项研究中,作者观察到KNN特征编码在基准数据集上获得了最佳性能,但在独立评估中却明显失败。这进一步强调了使用独立数据集评估已开发模型的鲁棒性的必要性。

4.5 基于单个ML和集成模型的性能

  • 表1列出的所有模型均使用独立的数据集进行了评估。
    在这里插入图片描述
    表2显示,当使用独立数据集和基准数据集进行评估时,大多数模型(十一个)表现出不一致的性能。剩余的SVM和三个集成模型{2,3},{1,2,3}和{1,3,4}获得了一致的性能, Δ \Delta ΔACC <0.5%,其中{2,3}表现最佳,MCC和ACC分别为0.765和0.882。 {2,3}实现的MCC和ACC比本研究中使用的其他模型分别高0.8%–5.0%和0.4%–2.4%;重要的是,在同时使用基准数据集和独立数据集进行评估时,{2,3}获得了最佳和最可靠的性能。该结果表明,利用不同的方面来利用不同类型的DNA特征非常重要。然后可以通过集成方法将这些特征集成到一个统一的计算框架中,从而生成一个健壮且改进的预测器。在这项研究中选择的{2,3}模型称为“ SDM6A”。

4.6 将SDM6A的性能与现有预测器的性能进行比较

  • 使用独立的数据集,将SDM6A的性能与i6mA-Pred和iDNA6mA的性能进行了比较。
    在这里插入图片描述
    ACC,MCC,SN和SP值表明,SDM6A的综合性能分别比i6mA-Pred和iDNA6mA高出3.1%–5.8%,6.3%–11.8%,0.5%–5.9%和5.9%(表3)。通常认为DL方法的性能要优于其他基于ML的算法,后者已广泛应用于蛋白质结构和功能预测。然而,SMD6A在基准数据集和独立数据集上始终优于基于DL的方法iDNA6mA,进一步强调了特征编码和两层集成模型的系统选择对于改进预测至关重要。此外,McNemar的卡方检验用于确定SDM6A与现有预测变量之间的差异是否具有统计显着性。在p值阈值为0.05时,SDM6A明显优于其他两种方法。值得注意的是,i6mA-Pred和iDNA6mA仅提供类别标签,而没有提供详细的概率评分,这是用户的重要属性。但是,SDM6A同时提供了类别标签和概率评分,证明了该方法相对于其他预测方法的优势。
    由SDM6A表示的改进性能可以解释如下:
    (1)由于以前的特征提取方法相对简单,因此作者系统地,全面地探索了不同类型的特征编码,并确定了五个特征编码对6mA位点的预测有显着贡献;
    (2)优化了每个特征编码,并通过针对SVM和ERT的集成策略将它们分别集成在一起;
    (3)通过集成SVM和ERT开发了集成模型,从而进一步提高了模型的鲁棒性。

4.7 Web服务器实施

实施了一个用户友好且可公开访问的Web服务器,以预测水稻基因组中新的推定6mA位点。可从http://thegleelab.org/SDM6A免费访问SDM6A。可以从Web服务器免费下载本研究中使用的所有数据集。SDM6A服务器使用说明

5.结论

  1. 开发了一种称为SDM6A的新型计算预测器。为了生成可靠的预测模型,我们首先对各种特征编码进行了系统,全面的分析,结果表明,有五种编码方法适合识别6mA的位点。为四种编码(BPF,DPE_LPF,NUM和RFHC)选择最佳特征,并且由于特征尺寸较小,因此使用一种编码(KNN)。分别为SVM和ERT开发了相应的模型。通过分别对SVM和ERT的五个不同特征编码的预测输出求平均,构建了一个整体模型。通过平均SVM和ERT的预测输出来构建第二层集成模型,从而提高了模型的鲁棒性。
  2. 使用基准数据集和独立数据集将SDM6A的性能与最新的预测变量(i6mA-Pred和iDNA6mA)进行比较时,发现SDM6A在这两个数据集上均达到了最佳性能。该结果表明,SDM6A在区分6mA位点和非6mA位点方面确实比最新的预测器更有效。开发了一个基于最佳集成模型的用户友好型Web服务器,供研究团体使用。总而言之,互补和异构特征可以帮助提高预测器性能。
  3. 未来工作:基于实验数据的可用性探索其他信息特征并增加训练数据集,这可能有助于开发下一代预测模型。这项工作中提出的计算框架将有助于研究检查6mA位点和其他重要的表观遗传修饰,例如4mC和5mC位点。当前的方法可用于计算生物学,以开发其他新颖的方法,并且可以广泛应用应用于预测6mA的位点并激发下一代预测器的发展。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值