论文解读：Nm-Nano: Predicting 2´-O-Methylation (Nm) Sites in Nanopore RNA Sequencing Data

YZT8848

已于 2022-03-27 15:40:16 修改

阅读量237

点赞数

分类专栏：生信文章标签： python

于 2022-03-25 16:03:47 首次发布

原文链接：https://www.biorxiv.org/content/10.1101/2022.01.03.473214v1.supplementary-material

版权

生信专栏收录该内容

51 篇文章 22 订阅

订阅专栏

纳米-纳米:预测纳米孔RNA测序数据中的2´-O-Methylation (Nm)位点

期刊：bioRxiv

时间：2022.01.04

论文链接：Nm-Nano: Predicting 2’-O-Methylation (Nm) Sites in Nanopore RNA Sequencing Data | bioRxiv

一、摘要

Nm (2´-O-methylation)是mrnas和非编码RNA最丰富的修饰之一，当甲基被添加到核糖部分羟基产生。纳米修饰贡献巨大，有了不少应用，本文提出Nm-Nano框架来预测RNA纳米位点预测，采用了两种监督学习的方式XGboost和RF。每个模型用一组特征训练，特征来自牛津纳米孔设备，生成对应的碱基为K-mer。从Hela和Hek293细胞系的RNA纳米孔测序数据生成的两个基准数据集上的结果显示了Nm-Nano的良好性能。方法是使用Hela基准数据集训练每个模型，并在Hek293基准数据集上测试它以识别Nm位点。

二、方法与数据集

采用随机测试与独立测试。随机测试：基准数据集分为80%用于训练还有20%用于测试。独立测试：用了两个基准数据集一个用于训练，一个用于测试。对于本文提出的模型Nm-Nano ML用Hela基准数据集对模型进行训练，使用Hek293基准数据集对模型进行测试。

数据集：Hela基准数据集和Hek293基准数据集

为Hek293和Hela细胞系生成了两个不同的基准数据集(补充csv文件Nm_hek.csv和Nm_Hela.csv)。一共得到56320个样本。

Hela：阳性样本=96041 阴性样本=96041

Hek293：阳性样本=28160 阴性样本=28160

特征提取：每个生成的基准数据集有七列，代表七个特征，用于训练我们开发并集成在Nm-Nano框架中的机器学习模型。这些特征是:位置、事件级别平均值、事件标准偏差、模型平均值、模型标准偏差、平均值差异以及参考和模型k-mer匹配。前五个特征是通过从eventalign的输出(补充文本2)中选取它们的列直接提取的(即:position、event_level_mean、event_stdv、model_mean和model_stdv列)。第六个特征是通过计算信号的平均值(event_level_mean)和eventalign模块模拟的信号的平均值(model_mean)之间的差而产生的。第七个特征是通过检查eventalign输出中的reference_k-mer和model_k-mer coulmns是否相互匹配而产生的，其中前者指的是通过在碱基调用阶段使用evenalign从提取的纳米孔信号中推断RNA序列读数而产生的碱基调用k-mers，而后者指的是通过使用eventalign从模拟信号中推断RNA序列读数而产生的碱基调用k-mers。如果参考和模型k-mer彼此匹配，则参考和模型k-mer匹配的值为1，否则为0。流程图如下：

三、结论

在本文中，我们提出了一个名为Nm-Nano的新框架，它集成了两个机器学习模型:Xgboost和带有k-mer嵌入的RF。已经表明，所提出的框架在检测RNA长阅读中的Nm位点方面是有效的，这解决了文献中存在的大多数现有Nm预测器的局限性，这些预测器只能检测RNA序列短阅读中的Nm位点。还观察到，在Hela和Hek293的总直接RNA纳米孔序列上部署Nm-Nano导致从对两种细胞系中发现的频繁修饰的Nm基因的总数进行功能富集分析中获得一些生物学结果。这些结果可以通过Hela和Hek293细胞系中广泛的功能过程观察到。在Hela中，我们观察到几个高置信度(调整后p-val < 0.05)的丰富本体，它们更能代表Nm修饰在免疫反应和细胞稳态中的作用，而在Hek293中，我们观察到广泛的功能过程，这些过程突出了Nm修饰的不同调节作用，从其参与细胞免疫信号传导到细胞加工。由于这个原因，纳米纳米将是在RNA阅读序列中准确鉴定纳米位点的有用工具。