m6AmPred:基于序列衍生信息识别 RNA N6、2‘-O-二甲基腺苷 (m6Am) 位点

  1. List item

论文解读《#m6AmPred:基于序列衍生信息识别 RNA N6、2’-O-二甲基腺苷 (m6Am) 位点》
数据:https://www.xjtlu.edu.cn/biologicalsciences/m6am

目录
1、介绍
2、材料和方法
2、结果

介绍

N6,2‘-o-二甲基腺苷(m6Am)是一种广泛发生在不同RNA分子上的可逆修饰。m6Am的生物学功能尚未清楚,尽管最近的研究揭示了其对细胞mRNA命运的影响。精确识别RNA上的m6Am位点对于理解其生物学功能至关重要。我们在这里展示了m6AmPred,第一个从RNA初级序列中硅识别m6Am位点的web服务器。基于Dart算法XXtreme梯度增强(XgbDart)和EIIP-PseEIIP编码方案,通过10倍交叉验证和独立测试数据集的测试,取得了很好的预测性能。为了批判性地测试和验证m6AmPred的性能,我们对来自两个数据源的实验验证的m6Am位点进行了交叉验证。m6AmPredweb服务器可以在:https://www.xjtlu.edu.cn/biologicalsciences/m6am
RNA N6的动态表观遗传修饰已成为过去几年生物学研究的重要焦点。自从发现第一个结构修饰的核苷以来,已经表征了 170 多种转录后。在几乎所有类型的 RNA 上都发现了 RNA 修饰,包括 mRNA、rRNA、tRNA 和 snRNA,它们在调节生物功能方面表现出高度的特异性和效率
最近的研究已经开始揭示 m6Am 在增强 mRNA 稳定性和翻译效率方面的功能 ]和阻碍结直肠癌干细胞能力的功能 。m6Am 位点的鉴定对于阐明其生物学功能至关重要
在这项研究中,我们尝试开发一种用于识别 RNA 序列中 m6Am 位点的计算机技术,使用 eXtreme Gradient Boosting 算法,XgbDart 作为分类器。

材料和方法

1、特征提取

1、.核苷酸化学性质 (NCP) 和核苷酸密度 (ND)
核苷酸密度(ND)表示核苷酸在每个位置的分布和频率信息。**第 i 个位置的核苷酸 N 的密度 (di) 可以通过 N 出现的数量 (n) 来计算
在第 (i +1) 个位置除以i之前:di =n/i。因此,对于序列“AUAGUCAUAA”,A在第 1、3、7、9 和 10 位的密度分别为 1、0.67、0.43、0.44 和 0.50。类似地,U 为 0.50,具体来说,A、C、G、U可以编码为向量(1,1,1,di)、(0,1,0,di)、(1,0,0,di)和(0,0,1 ,di) 分别。因此,RNA 序列中的每个核苷酸将被编码为四个数值,并且每个 RNA 序列将被编码为 4 (侧翼序列的长度)维向量
2、.电子-离子相互作用电位(EIIP)和伪EIIP(PseEIIP)采用核苷酸的电子-离子相互作用电位(EIIP)值的编码方案最初由Nair和Sreenadhan[37]提出,并被用于其他生物信息学研究领域后来[38-40]。在 EIIP 中,每个 mRNA 核苷酸都被编码为一个数值,代表它的电子- 离子相互作用势。每个核苷酸的 EIIP值在表 2中给出。在我们的研究中,EIIP编码生成一个长度为 41 的数字向量。此外,为 EIIP (PseEIIP) 是通过将三核苷酸的数值总和与其在给定序列中的频率相乘来计算的。
PseEIIP = [EIIPAAAf AAA, EIIPAACf AAC, EIIPAAGfAAG, ……., EIIPTTTf TTT, ]
每个核苷酸的EIIP
在这里插入图片描述

2、训练集和测试集

数据从基因表达下载综合 (GEO) 将两个GEO数据集的数据合并,分为完整转录数据集和成熟RNA数据集,完整转录数据集中2447个阳性序列,成熟RNA数据集中1673个阳性序列。将完整的转录本和成熟的RNA数据集随机分离,以8:2的比例进行训练集和测试集。然后,将两个GEO数据集作为训练集,另一个分别作为测试集,以测试模型的坚固性。表1列出了每个数据集的站点数
在这里插入图片描述

3、机器学习分类器的选择

支持向量机 (SVM)、随机森林 (RF)、线性模型 (GLM) 是 RNA 修饰预测中最流行的机器学习分类器,已广泛用于不同的修饰预测 [16,22,30,42 ]。此外,本研究还测试了极限梯度提升算法 XgbDart (XGBDART),该算法之前尚未被其他 RNA 修饰预测器使用。 XgbDart[43]最初是由 K. V. Rashmi 和 RanGilad-Bachrach通过对集成树采用 dropout 来克服过度专业化问题而提出的。我们通过 10 倍交叉验证和独立测试集评估了这些算法的性能。 *XgbDart 算法的超参数通过对 boosting 迭代次数、最大树深度、收缩(学习率)、最小损失减少、子样本百分比、列子样本比率、分数应用网格搜索来调整丢弃的树的数量、跳过 drop-out 的概率以及实例权重的最小总和。选择最佳序列长度和超参数用于 m6AmPred 的最终构建

通过不同的输入序列长度和超参数调优对所选模型进行进一步优化。RNA序列的长度(L)设计为2N+1,中心为m6Am位点,两侧为N(nt)侧翼序列。表3列出了不同长度的不同N的基准RNA序列。通过对增强迭代次数、最大树深度、收缩(率(学习率)、最小损失减少、子样本百分比、列子样本比、丢弃树的比例、跳出的概率和实例权值的最小和进行网格搜索,对XgbDart算法的超参数进行了调整。在最终构建m6AmPred时,选择了最佳的序列长度和超参数
在这里插入图片描述

在这里插入图片描述
*
在这里插入图片描述
在这里插入图片描述
.独立测试集对具有两种不同编码方案的四种分类器的性能评估。不同编码方案的不同分类器的AUC值比较如上图所示。下图比较了两种不同编码方案的四种分类器在全转录模式下的预测性能,下图为成熟RNA模式下的结果。 * XGBDART = XgbDart,SVM =支持向量机,RF = 随机
森林,GLM =线性模型。

在m6Amweb服务器中,如果一个站点的预测值大于0.5,则它被预测为假定的m6Am站点。然后计算一个m6Am位点的似然比(LR),以估计一个m6AmRNA甲基化的概率,最小LR值为1。一个LR值较大的站点表明它更有可能是一个m6Am的站点。

结果

四种特征提取方法结合不同分类器的性能评价结果如图所示。1.在编码方案比较中,当EIIP-PseEIIP提取的特征时,所有分类器的性能都优于NCP-ND编码的性能。在分类器比较中,XgbDart在四种算法中总体效果最好。因此,我们选择了XgbDart结合EIIPPseEIIP编码策略来构建我们的机器学习

当通过独立测试集评估时,我们的模型实现了相当高的准确度,完整转录本的 AUC 为 0.932,成熟 RNA 的 AUC 为 0.956。该模型还通过使用来自两个来源的数据进行了交叉评估。使用 GSE63753 作为训练集时,AUC 和 10 倍交叉验证的准确率出乎意料地低于使用整个 GSE78040 作为独立测试集的结果。与我们的常识不同,该模型通常比测试数据集更适合训练数据集
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值