m5CPred‑SVM: a novel method for predicting m5C sites of RNA

论文翻译:SVM:一种预测RNA m5C位点的新方法

期刊名: BMC BIOINFORMATICS

中科院分区\影像因子: 2Q/3.169

网站: https ://zhula b.ahu.edu.cn/m5CPr ed-SVM

数据集链接:GEO Accession viewer

文章链接:m5CPred-SVM: a novel method for predicting m5C sites of RNA | BMC Bioinformatics | Full Text

一、摘要

背景:5-胞嘧啶甲基化作为RNA中最常见的转录后修饰(PTCM)之一,在RNA代谢和细胞命运决定等许多生物学功能中发挥重要作用。通过精确识别RNA上的5-甲基胞嘧啶(m5C)位点,研究人员可以更好地了解5-胞嘧啶甲基化在这些生物功能中的确切作用。近年来,预测m5C位点的计算方法因其高效性和低成本而引起了广泛的关注。然而,这些方法的精度和效率都不令人满意,需要进一步改进。

结果:在这项工作中,我们开发了一种新的计算方法m5CPredSVM,用于识别智人、小家鼠和拟南芥中的m5C位点。为了构建这个模型,我们首先按照最近发布的三种方法收集基准数据集。然后,基于RNA片段生成六种基于序列的特征,并使用顺序正向特征选择策略获得最优特征子集。之后,比较了基于不同学习算法的模型的性能,基于支持向量机的模型预测精度最高。最后,将我们提出的方法m5CPred-SVM与现有的几种方法进行了比较,结果表明m5CPred-SVM比以前发表的方法提供了更高的预测精度。预计我们的方法m5CPred-SVM可以成为准确鉴定m5C位点的有用工具。

结论:在本研究中,通过引入位置特异性倾向相关特征,我们建立了一个新的模型m5CPred-SVM,用于预测三种不同物种的RNA m5C位点。结果表明,我们的模型优于现有的最先进的模型。

二、方法与数据集

数据集:6289阳性样本,6289阴性样本。

三个物种非冗余数据集:智人、家鼠、拟南芥

特征提取方法:

KNF(作为一个经典的序列编码特征,K核苷酸频率(KNF,也称为NC(核苷酸组成))已被广泛用于建立生物信息学模型)

KSPNPF:k间距核苷酸对频率是编码RNA序列的另一种方法。该方法主要计算由k长度的多核苷酸分开的16对核苷酸的频率。我们使用n1 × {K}n2来表示K个间隔的核苷酸对。因为n1和n2有四个可能的值,所以有十六(42 = 16)种可能的组合。例如:AxxC是两个间隔核苷酸对。

PSNP:这一特征是通过计算阳性和阴性RNA片段之间特定位置核苷酸频率的差异获得的。

KSPSDP:为了计算K间距的位置特异性二核苷酸倾向,n1 × {K}n2用于表示K间距的核苷酸对。当K等于0时,PSDP是KSPSDP的一个特例。在这项工作中,我们尝试了不同的K值,以确定不同物种的最佳KSPSDP特征。

PseDNC:为了计算K间距的位置特异性二核苷酸倾向,n1 × {K}n2用于表示K间距的核苷酸对。当K等于0时,PSDP是KSPSDP的一个特例。在这项工作中,我们尝试了不同的K值,以确定不同物种的最佳KSPSDP特征。

CPD:RNA中的四类核苷酸(A(腺嘌呤)、U(尿嘧啶)、G(鸟嘌呤)和C(胞嘧啶))根据其化学结构和内部结合特征可分为三类[54]。考虑到核苷酸的环结构,C和U是一个环的嘧啶,而A和G是两个环的嘌呤。至于二级结构,A和U的氢键较弱,而G和C的氢键较强。

三、模型构建支持向量机

       支持向量机(SVM)是一种流行的统计学习方法,由于其高效率和稳健的输出,已被广泛用于建立生物信息学模型。在这项研究中,我们使用MATLAB函数FITCSVM来建立我们的模型。SVM使用核函数将低维数据投影到高维空间。在训练中可以使用一些不同的核函数。在这项工作中,径向基核函数选择了两个超参数(盒约束和核尺度)用于FITCSVM函数。

四、结论

在这项研究中,一种新的计算方法,m5CPred-SVM,被开发用于预测RNA序列中的m5C位点。收集了三个物种的非冗余大型基准数据集,即智人、小家鼠和拟南芥。总共六种类型的特征用于建立我们的模型,包括与组成相关的特征、与位置特异性相关的特征和与物理化学性质相关的特征。结果表明,与位置特异性相关的特征对于区分智人和小家鼠的m5C位点和非m5C位点是有效的。核苷酸分布分析揭示了核苷酸位置偏好对于智人和小家鼠都是显著的,这解释了与位置特异性倾向相关的特征的有效性。出于同样的原因,与位置特异性倾向相关的特征对拟南芥来说不是那么有效,因为与其他两个物种相比,核苷酸位置偏好不太重要。使用顺序正向特征选择策略从这六种类型的特征中选择最优特征子集。所有三个子集包括与位置特异性倾向相关的特征和与核苷酸组成相关的特征,这表明特征之间的互补性。通过使用独立的测试集,我们的方法与其他现有方法的性能进行了客观的比较。结果表明,我们的方法可以提供明显优于所有其他现有方法的性能。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值