iRNA5hmC:使用机器学习识别RNA5 -羟甲基胞嘧啶修饰的第一个预测因子

论文解读:iRNA5hmC:使用机器学习识别RNA5 -羟甲基胞嘧啶修饰的第一个预测因子

目录

iRNA5hmC:使用机器学习识别RNA5 -羟甲基胞嘧啶修饰的第一个预测因子

1.概括

2.要点:

3.介绍:

4.材料和方法

4.1 数据集

4.2 建议的预测框架

4.3 特征表示

4.4 特征优化

 4.5 分类算法

4.6 评价指标与方法

5 结果和讨论

5.1 分类器的优化

5.2 特征分析

5.2.1功能组合分析

5.2.2功能优化分析

5.2.3 特征贡献分析

5.3特征集与现有特征算法的比较

6.不同分类算法的比较

7 Web服务器实施

8 结论


1.概括

RNA 5-羟甲基胞嘧啶(5hmC)修饰在一系列生物过程中起着重要作用。研究其在转录组中的分布对揭示5hmC的生物学功能至关重要。基于测序的技术允许高通量识别5hmC;然而,然而,它们耗费大量的劳动力、耗时和昂贵。因此,迫切需要开发更有效和高效的计算方法,至少可以补充高通量技术。在这项研究中,我们开发了iRNA5hmC,一种利用机器学习识别RNA5hmC位点的计算预测协议。在此预测中,我们引入了一种基于序列的特征算法,包括两个特征表示(1)k-mer谱(k-mer)和(2)位置核苷酸二进制向量,以捕获5hmC位点的序列特征。然后,我们利用两阶段特征空间优化策略来提高特征表示能力,并使用支持向量机(SVM)训练预测模型。我们的特征分析结果表明,特征优化可以帮助捕获最具区分度的特征。与已知的现有特征描述符相比,我们提出的表示法可以更准确地区分真正的5hmC和非5hmC的站点。据我们所知,iRNA5hmC是第一个RNA5hmC预测器,能够仅基于RNA一级序列进行预测,而不需要任何先验的实验知识。重要的是,我们已经建立了一个易于使用的网络服务器,目前可以在http://server.malab.cn/iRNA5hmC。我们认为它有可能成为5hmC站点预测的有用工具。

 

2.要点:

1.iRNA5hmC是第一个RNA5 -羟甲基胞嘧啶位点预测器,它可以在没有事先实验知识的情况下根据RNA一级序列进行预测。

2.基准测试结果表明,iRNA5hmC的性能优于其他使用现有序列派生特征描述子训练的机器学习算法。

3.特征分析表明,真5hmC位点和非5hmC位点之间存在组成和位置特异性。

4.我们已经建立了一个易于使用的网络服务器来实现预测。它可以在http://server.malab.cn/ iRNA5hmC上公开访问。

 

3.介绍:

RNA可以通过各种化学修饰修饰。在过去的几十年里,在mRNA、tRNA、rRNA和snRNA等中发现了100多种修饰。这些修饰在一系列生物过程中发挥着重要作用,如RNA剪接、RNA翻译和RNA衰变。此外,还证实了RNA修饰与人类疾病相关,包括癌症、心血管疾病、鲍文-康拉迪综合征、肥胖和糖尿病等。因此,确定它们在转录组中的分布对于解码RNA修饰的生物学和生理功能具有重要意义。

由于高通量测序方法的应用,近年来,在N6 -甲基腺嘌呤(m6A)、n1 -甲基腺嘌呤(m1A)、n7 -甲基鸟苷(m7G)、5-甲基胞苷(m5C)等方面的研究大量涌现。另一种RNA修饰称为5-羟甲基胞嘧啶(5hmC),是由TET介导的m5C氧化形成的。5HmC最初是在小麦幼苗中发现的,也在小鼠和人类的各种组织中检测到(。后来,Huber et al发现5hmC在各种不同物种的生命的所有三个领域都普遍存在。

最近Delatte et al.通过hMeRIP-seq方法揭示了果蝇中5hmC的转录组宽谱,发现5hmC的修饰是非随机分布的,在编码区丰富。同时,他们还发现在果蝇的大脑中有大量的5hmC修饰。Miao等人也观察到了类似的结果;他们在小鼠的脑干、海马体和小脑区域发现了高水平的5hmC修饰富集。这些结果表明,5hmC修饰可能在脑组织中发挥重要作用。为了进一步揭示5hmC的生物学功能,有必要对其在多种香料转录组中的分布进行表征。不幸的是,在大多数物种中5hmC的分布仍未被确定。

考虑到高通量实验方法昂贵且耗时,有必要开发计算方法来检测5hmC修饰位点。受机器学习方法成功应用于识别RNA修饰的启发,在本研究中,我们开发了iRNA5hmC,一种利用机器学习预测RNA5hmC位点的计算预测器。在该预测器中,我们使用k-mer谱位置核苷酸二值向量分别捕获5hmC位点的序列组成和位置特异性特征,采用两阶段特征选择策略优化特征空间,并训练基于svm的预测模型。据我们所知,iRNA5hmC是第一个机器学习预测器,它能让研究人员仅根据RNA一级序列做出RNA5hmC预测,而无需任何其他的实验知识。重要的是,我们已经建立了一个易于使用的网络服务器,以使拟议的预测更有效。我们希望它有潜力成为高通量测序方法的补充工具。



4.材料和方法

4.1 数据集

在这里,我们构建了第一个5hmC数据集来训练预测模型。它包括阳性样本和阴性样本。阳性样本的采集基于Delatte等人的工作,其中包含662个5hmc位点,序列相似度小于80%的序列。根据我们之前的经验,序列的长度为41nt(核苷酸),5hmC位点位于中心。用hMeRIP-seq方法未检测到的中间胞嘧啶选择41-nt长序列,获得阴性样本(含序列的非5hmC位点)。因此,我们采集了大量的阴性样本。为了在模型训练中平衡正数据集和负数据集之间的样本数量,我们随机选取662个包含序列的非5hmc站点作为负样本。用于训练所提模型的数据集可在http://server.malab.cn/ iRNA5hmC获得。

4.2 建议的预测框架

预测过程可以分为两个阶段:(1) 模型训练和(2)预测。在训练阶段,通过特征表示算法对训练样本进行编码和整合。然后对特征进行优化,得到最优特征子集,将其输入SVM算法训练预测模型。在预测阶段,对于没有特征化的查询序列,我们按照类似的过程对序列进行编码,并使用训练好的模型预测查询序列是否为5hmC序列。SVM模型给每个查询序列一个分数,以衡量它是真正的5hmC序列的可能性。如果得分高于0.5,则认为是5hmC序列;否则,它就不是。

4.3 特征表示

在本研究中,我们引入了一种包含以下两种基于序列的特征描述符的特征表示算法:(1)k-mer谱(k-mer spectrum)和(2)核苷酸二进制编码(nucleotide binary encoding)。第一个特征描述符是k-mer谱。使用它有两个原因。其一,它是一种简单而有用的特征算法,用于编码像RNA和DNA这样的字符序列。另一方面,更重要的是,之前的研究表明,DNA 5mC经常在CG、CHG和CHH(H代表A、C或T)的环境中被发现。因此,RNA5hmC的修饰可能也有类似的情况。为了便于讨论,一个给定的RNA序列可以表示为

其中R1表示第一个核苷酸,R2表示第二个核苷酸,以此类推。Ri可以是四种核苷酸{A, C, U, G}中的任何一种。k-mer谱计算长度为k的所有可能序列模式的出现频率。因此,使用该描述符,给定序列可以表示为:

                 

其中{f_{i}}^{k-mer} i为S中第i个k-mer的出现频率。同样,我们使用2-mer和3-mer谱来编码我们的RNA序列。自然,S分别表示为2-mer和3-mer矢量:

 

第二种特征描述符是核苷酸二进制编码,我们将不同的核苷酸转换成不同的数字向量,规则如下:“A”、“U”、“C”和“G”的编码分别为“0001”、“0010”、“0100”和“1000”。最后,将给定的RNA序列编码为244个特征(41 × 4 + 4^{2}+ 4^{3}= 244)


4.4 特征优化

特征优化是去除噪声特征、保留两类间可分离度最高的特征的关键步骤,在一些生物信息学问题中,该方法被用于提高预测性能。在本研究中,我们采用两阶段特征选择策略。在第一步中,我们通过方差分析(ANOVA)计算244个特征的特征重要性,计算每个特征的可分离度,得到各自的F值,并生成一个关于其分类重要性的特征排序列表。F值越大的特征表示越重要。第θ个特征定义的ANOVA F值如下:

F-value(\theta )=\frac{S_{B(\theta )}^{2}}{S_{w(\theta )}^{2}}                                                (5)

 

其中S_{B(\theta )}^{2}S_{w(\theta )}^{2}分别为(MSB)之间和(MSW)内的均方。它们的定义如下

 

这里dfB= K−1,dfw= N−K分别为MSB和MSW的自由度。K和N分别表示组数(当前情况K = 2)和样本总数;而ni是第i组的样本数。Fij (θ)表示第i组中第j个样本的θ个特征特征值。在第二步中,我们使用序列前向搜索(SFS)策略来确定最优特征表示。具体来说,将排序后的特征列表中的特征从较低的等级(较高的指标)到较高的等级(较低的指标)逐个递增,并用于在五次交叉验证测试中重建基于SVM的预测模型。最后,具有最佳性能(就ACC而言)的特征子集被识别为最优集合。特征优化结果的细节在“特征分析”一节中讨论。

 4.5 分类算法

支持向量机是一种强大的机器学习算法,用于分类、回归以及其他机器学习任务。它已成功应用于计算生物学中的一系列监督学习问题.支持向量机的主要原理是将输入数据转换到高维特征空间,然后确定最合适的超平面来区分不同类别的样本。之后,超平面可以用来预测未知数据的类别。在本研究中,我们使用Python(版本2.7.15)中的SVM库实现了SVM算法。我们选择径向基函数(RBF)作为核函数,它可以将非线性分离的特征空间转换为线性可分的高维特征空间。通过网格搜索对参数进行优化,确定SVM算法的最优分类超平面。分类算法的优化结果可以在“分类器优化”一节中看到。

4.6 评价指标与方法

4个指标,即灵敏度(SN),特异性(SP),准确性(ACC)和马修相关系数(MCC),用于生物工程和生物技术前沿定量评价了所提出方法的性能。它们的定义如下:

 

其中TP(真阳性)为正确预测阳性样本数;TN(真阴性)表示正确预测的阴性样本数;FP(假阳性)表示阴性样本被误预测为阳性样本的个数;FN(假阴性)表示阳性样本被错误预测为阴性样本的数量。

此外,我们使用五重交叉验证方法来衡量预测器的预测性能。该验证方法包括三个步骤。首先,将数据集随机划分为五个大小相等的子集。在这5个子集中,选择4个作为模型训练的训练数据集,保留1个作为验证数据,用于评价模型的性能。在此之后,重复此过程,直到将每个子集作为验证数据使用一次。最后,将5个结果取平均值,得到最终的预测估计。

为了更直观地评价预测性能,我们还使用了两条曲线:接收者操作特征(ROC)曲线和精确度-召回率(PR)曲线。ROC曲线绘制了不同分类阈值下的真阳性率(TPR)与假阳性率(FPR;1-特异性),而PR曲线绘制了不同阈值设置下的精确度(TP在所有预测阳性中的比例)与回忆(敏感度)的关系。PR曲线比ROC曲线对假阳性更敏感,特别是在不平衡的数据集上进行评估。此外,ROC曲线下面积(AUC)被用来定量衡量预测模型的质量。AUC的范围为0.5-1,AUC越高,预测效果越好。

5 结果和讨论

5.1 分类器的优化

为了达到最好的性能,我们进行了以下实验来优化SVM分类器。首先,我们进行了参数优化。支持向量机有两个参数,包括惩罚系数(表示为c)和伽马(表示为g)。我们使用网格搜索策略分别在(−2到5)和(−5到2)范围内找到log2clog2g的最佳值。图1A显示了网格搜索过程在三维空间中的可视化。接下来,我们需要确定哪个内核函数最适合我们的数据集。支持向量机有三个核函数:径向基函数、多项式核函数和Sigmoid核函数,用于处理不同的特征空间。因此,我们比较了这三种内核的性能。我们可以在图1B中观察到,RBF比其他两个内核性能更好,最高AUC为0.70。因此,我们使用带RBF核的支持向量机来训练预测器中的模型。

图1|支持向量机的参数和内核优化。(A)基于网格搜索的分类器参数优化可视化;(B)支持向量机中不同核函数的ROC曲线

5.2 特征分析

为了深入挖掘有利于5hmC预测的关键信息,我们进行了一系列特征分析实验,包括特征组合、优化和贡献分析。

5.2.1功能组合分析

在我们的预测框架中,包括2-mer谱,3-mer谱和核苷酸二元特征在内的三个特征描述符串接在一起来编码RNA序列。为了评估它们对5hmC预测的贡献,我们比较了不同特征及其组合的性能。可以看出,在三个单独的特征描述符中,3-mer谱比其他两个(2-mer谱和二进制向量)表现更好。这表明序列模式对5hmC预测更有用。通过结合2-mer和3-mer光谱,性能略有改善。特别是在2-mer和3-mer光谱组合中加入二进制向量后,ACC和MCC的性能分别下降到56.1%和0.122,与仅使用二进制向量的性能基本相同。可能的原因是,集成不同类型的特征空间会产生对性能没有帮助的互信息。

不同特征及其组合的五次交叉验证结果

5.2.2功能优化分析

为了得到最具区分性的特征,我们进一步对集成特征空间进行了两阶段特征优化。优化策略的过程可以在“方法与材料”一节中看到。图2A展示了在SFS过程中逐步添加特征(从特征排名表中)的预测模型的ACC曲线。如图2A所示,当特征数达到26个时,模型的ACC达到最大值。在达到峰值后,随着添加更多特性,性能会导致显著下降(见图2A)。这说明大多数低秩特征(二进制向量)与高秩特征相对无关,甚至会导致性能下降。特征优化后,ACC和MCC的整体性能分别提高了约9.38%和0.188。这些结果表明,特征优化可以有效地提高特征表示能力,从而提高性能。接下来,我们进一步比较了原始特征空间和最优特征空间的空间分布。为了进行直观的比较,我们使用了可视化工具t-SNE,该工具能够将特征空间缩减到二维空间。图2B、C分别描绘了原始特征空间和最优特征空间的t-SNE可视化。从图2B可以看出,原始特征空间中的正(真5hmC位点)和负(非5hmC位点)样本混合在一起,表明原始特征空间不能分离真正的5hmC站点来自非5hmC站点。相反,在特征优化后(见图2C),特征空间中的正样本和负样本分布在相对清晰的簇中。这表明,功能优化能够去除一些不相关的功能,并学习真正的5hmC站点的最具代表性的内容。

 

5.2.3 特征贡献分析

为了明确哪些特征对5hmC的预测是重要的,我们进一步分析了不同特征在我们的特征集中的重要性。有关如何计算特征重要性的详细信息,请参阅“特征优化”一节。图2D显示了前20个功能的重要性得分(F值),所有功能的详细信息可以在补充材料中找到。如图2D所示,在前20个特征中,大多数特征是k-mer谱(3-mer和2-mer),而20个特征中只有4个是二元特征,这表明正负样本之间存在显著的组成差异。特别是序列模式“GGG”和“GG”是最重要的特征,表明鸟嘌呤(G)核苷酸的组成是预测5hmC的判别特征。这一观察结果与DNA 5mC经常在CG或C×G环境中发现的事实不同。我们进一步使用了两个样本标识(TSL),这是一个基于网络的应用程序,用于计算和可视化两组(阳性和阴性)排列的核苷酸样本之间的差异。图2E描述了我们的数据集中正样本和负样本的TSL可视化。我们观察到,在阳性和阴性样本之间,核苷酸的富集在沿着序列的特定位置上有很大的不同。例如,腺嘌呤(A)核苷酸在正集的第38位被富集,而在负集没有被富集腺嘌呤(A)核苷酸。这表明组成特征可能具有位置偏好。因此,探索位置特征可能有助于进一步提高性能。

图2|特征分析结果。(A) 特征选择的ACC曲线;(B,C) 分别表示特征优化前后样本(正、负)在特征空间中的分布可视化;(D) 最重要的前20个特征的F值;请注意,x轴表示特定功能,y轴表示F值。请注意,b92表示二进制向量的第92个特征,b25表示第25个特征,依此类推;(E) TSL(T两个样本徽标)可视化本研究中使用的数据集中的正面和负面

.

 

 

5.3特征集与现有特征算法的比较

在这一部分中,我们比较了所提出的特征和四个基于序列的特征描述符,包括PCP(物理化学性质)、MMI(多变量互信息)、PseDNC(伪二核苷酸组成)和PseEIIP(三核苷酸的电子-离子相互作用假电位)。比较的特征描述符从不同的方面探索顺序信息。例如,PCP利用二核苷酸的物理化学性质,并使用自协方差和交叉协方差转换来探索任意两个核苷酸之间的相关性。MMI计算核苷酸的多变量互信息。PSE-DNC可以通过将序列顺序信息与PCP集成来捕获局部和全局特征模式。可以参考特征描述符的更多细节。我们在同一数据集上通过五次交叉验证评估了所有特征描述符,包括我们的特征集。由于我们的功能集是使用功能优化策略进行优化的,为了公平比较,我们也使用了相同的策略优化四个比较的特征描述符。表2报告了使用不同特征获得的结果。如表2所示,我们的特征集在ACC和MCC,SN和SP除外。该特征集的ACC值和MCC值分别为65.48%和0.31,分别比第二好特征描述符PseEIIP提高1.2个百分点和0.023,ACC值为64.27%,MCC值为0.2872。值得注意的是,我们的SN和SP分别为67.67%和63.29%,分别略差于SN中的最佳描述符PseEIIP和SP中的PseDNC。虽然我们的SN和SP不是最好的,但与PseEIIP和PseDNC相比,它们更均衡,因此有助于实现最高的整体性能。这表明我们的功能集可以更有效地区分真正的5hmC站点和非5hmC站点。此外,由于我们的特征集大部分是k-mer谱特征,这也表明与PCP和核苷酸互信息等其他信息相比,序列模式能够更好地捕捉5hmC位点的特征。

将提出的特征集与其他基于序列的特征描述符进行五次交叉验证


6.不同分类算法的比较

为了衡量SVM的有效性,我们将其性能与多个著名的分类器进行了比较,如梯度增强决策树(GBDT)、k近邻(KNN)、Logistic回归(LR)、朴素贝叶斯(NB)和随机森林(RF)。为了公平比较,我们用我们的特征集在同一数据集上训练分类器,然后逐个对分类器进行微调,以获得最优的性能。我们还对模型进行了五次交叉验证,评估结果如表3所示。我们可以看到,支持向量机分别达到了65.48%的ACC、67.67%的SN、63.29%的SP和0.31的MCC,在MCC和ACC这四个指标中有两个指标的表现优于其他四个分类器。具体地说,我们的ACC值和MCC值分别比GBDT高出1.88个百分点和0.0381个百分点。此外,我们还使用ROC和PR曲线进一步直观地比较了不同分类器的性能,分别如图3A和图B所示。结果表明,支持向量机分类器对5hmC站点和非5hmC站点的区分能力优于本研究中的其他四种分类器。

在本研究使用的数据集上,将支持向量机与四种知名分类器的结果进行了比较

 

                                                                             

图3|使用五重交叉验证评估不同分类器的性能。(A)不同分类器的ROC曲线。(B)不同分类器的PR曲

7 Web服务器实施

为了方便研究人员,我们建立了一个简单易用的Web服务器来实现我们的预测器,该服务器是免费的,可在http://server.malab.cn/iRNA5hmC.上获得。下面,我们将为研究人员提供如何使用Web服务器获得所需预测结果的循序渐进指南。首先,用户需要将他们的查询RNA序列提交到输入框中。请注意,输入序列应为FASTA格式。之后,用户可以指定预测置信度为0到1。否则,在默认设置下,如果预测置信度>0.5,则查询序列被预测为真5hmC序列。然后,点击“提交”按钮,用户就可以在电脑屏幕上获得想要的结果。

8 结论

在本研究中,我们提出了一个计算预测器,即iRNA5hmC,用机器学习来预测RNA 5hmC位点。据我们所知,这是第一个RNA 5hmC预测器,它能够在没有任何其他事先实验知识的情况下,仅基于RNA一级序列进行预测。特别是,我们为研究人员建立了一个简单易用的网络服务器,以使所提出的预测器更有效,并有可能成为高通量测序方法的补充工具。但是,我们也要看到,仍然存在预测性能相对较低、数据集较小等方面的问题,需要在今后的工作中加以改进。
 

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值