纳米-纳米:预测纳米孔RNA测序数据中的2´-O-Methylation (Nm)位点
期刊:bioRxiv
时间:2022.01.04
论文链接:Nm-Nano: Predicting 2’-O-Methylation (Nm) Sites in Nanopore RNA Sequencing Data | bioRxiv
一、摘要
Nm (2´-O-methylation)是mrnas和非编码RNA最丰富的修饰之一,当甲基被添加到核糖部分羟基产生。纳米修饰贡献巨大,有了不少应用,本文提出Nm-Nano框架来预测RNA纳米位点预测,采用了两种监督学习的方式XGboost和RF。每个模型用一组特征训练,特征来自牛津纳米孔设备,生成对应的碱基为K-mer。从Hela和Hek293细胞系的RNA纳米孔测序数据生成的两个基准数据集上的结果显示了Nm-Nano的良好性能。方法是使用Hela基准数据集训练每个模型,并在Hek293基准数据集上测试它以识别Nm位点。
二、方法与数据集
采用随机测试与独立测试。随机测试:基准数据集分为80%用于训练还有20%用于测试。独立测试:用了两个基准数据集一个用于训练,一个用于测试。对于本文提出的模型Nm-Nano ML用Hela基准数据集对模型进行训练,使用Hek293基准数据集对模型进行测试。
数据集:Hela基准数据集和Hek293基准数据集
为Hek293和Hela细胞系生成了两个不同的基准数据集(补充csv文件Nm_hek.csv和Nm_Hela.csv)。一共得到56320个样本。
Hela:阳性样本=96041 阴性样本=96041
Hek293:阳性样本=28160 阴性样本=28160
特征提取:每个生成的基准数据集有七列,代表七个特征,用于训练我们开发并集成在Nm-Nano框架中的机器学习模型。这些特征是:位置、事件级别平均值、事件标准偏差、模型平均值、模型标准偏差、平均值差异以及参考和模型k-mer匹配。前五个特征是通过从eventalign的输出(补充文本2)中选取它们的列直接提取的(即:position、event_level_mean、event_stdv、model_mean和model_stdv列)。第六个特征是通过计算信号的平均值(event_level_mean)和eventalign模块模拟的信号的平均值(model_mean)之间的差而产生的。第七个特征是通过检查eventalign输出中的reference_k-mer和model_k-mer coulmns是否相互匹配而产生的,其中前者指的是通过在碱基调用阶段使用evenalign从提取的纳米孔信号中推断RNA序列读数而产生的碱基调用k-mers,而后者指的是通过使用eventalign从模拟信号中推断RNA序列读数而产生的碱基调用k-mers。如果参考和模型k-mer彼此匹配,则参考和模型k-mer匹配的值为1,否则为0。流程图如下:
三、结论
在本文中,我们提出了一个名为Nm-Nano的新框架,它集成了两个机器学习模型:Xgboost和带有k-mer嵌入的RF。已经表明,所提出的框架在检测RNA长阅读中的Nm位点方面是有效的,这解决了文献中存在的大多数现有Nm预测器的局限性,这些预测器只能检测RNA序列短阅读中的Nm位点。还观察到,在Hela和Hek293的总直接RNA纳米孔序列上部署Nm-Nano导致从对两种细胞系中发现的频繁修饰的Nm基因的总数进行功能富集分析中获得一些生物学结果。这些结果可以通过Hela和Hek293细胞系中广泛的功能过程观察到。在Hela中,我们观察到几个高置信度(调整后p-val < 0.05)的丰富本体,它们更能代表Nm修饰在免疫反应和细胞稳态中的作用,而在Hek293中,我们观察到广泛的功能过程,这些过程突出了Nm修饰的不同调节作用,从其参与细胞免疫信号传导到细胞加工。由于这个原因,纳米纳米将是在RNA阅读序列中准确鉴定纳米位点的有用工具。