牛津纳米孔直接RNA测序读取的RNA修饰检测
目录
更新
EpiNano 1.2 - 当前版本
- 包括基于Guppy v3.1.5调用的序列派生的预训练m6A模型。
- 预训练模型也可用于检测其他RNA修饰(已测试伪尿嘧啶,其他修饰:未测试)。
- 此版本的EpiNano允许使用两种不同的策略进行预测:EpiNano-Error和EpiNano-SVM。
- 此版本现在包括用于可视化RNA修饰预测的模块(EpiNano_Plot*)。
EpiNano-Error只能在成对模式下运行(例如WT和KO或KD)。它结合了在给定数据集中出现的不同类型的基础呼叫错误(不匹配、删除、插入)以及每个基础呼叫质量的变化。RNA修饰预测基于两个匹配样本中观察到的错误模式的差异。这种策略可以使用任何给定基础呼叫算法版本调用的FASTQ数据。
EpiNano-SVM可以使用给定RNA修饰的预训练模型运行,或者通过构建您自己的模型。但是,我们应该注意,由于直接RNA测序读取的嘈杂性质,它们是富含“错误”的,因此仍然强烈推荐使用匹配的对照(例如KO或KD)。此外,在EpiNano 1.2中,除了使用“原始”基础呼叫“错误”特征训练的SVM模型(与EpiNano 1.0和1.1中相同),我们现在还提供使用捕获样本之间差异的特征训练的SVM模型(即不匹配的差异,而不是绝对不匹配频率),我们发现这提高了性能。
EpiNano 1.1 - 1.0版本的精简版,用python3编写,可在此处获得。
- 这个版本是当前在MasterOfPores中实现的,MasterOfPores是一个分析直接RNA测序数据的工作流程。
- 与EpiNano 1.0的主要区别是(i)它更快(ii)使用python3而不是python2(iii)不提取特征表中的当前强度,因为此功能未用于训练最终模型。
包括使用Albacore版本2.1.7调用的基础m6A模型。
既可以使用Guppy也可以使用Albacore调用的数据,但SVM预测只有在您的数据使用Albacore 2.1.7调用时才会准确。
无论使用哪种基础呼叫器,EpiNano都可以用作工具包,提取每个k-mer基础呼叫“错误”(不匹配、插入、删除、质量),这些是给定数据集中存在的RNA修饰的代理。我们建议以成对模式运行EpiNano,即计算两个数据集(WT-KO)的特征,然后准确预测RNA修饰位点(即在基础呼叫“错误”特征中显示最大差异的那些)。
EpiNano 1.0 - Liu, Begik等人在2019年自然通讯中使用的原始代码,可在此处获得。
包括使用Albacore版本2.1.7调用的基础m6A模型。
它提取了基础呼叫“错误”(不匹配、插入、选择、每个基础质量)以及电流强度值。
当前强度信息从Albacore调用的FAST5文件中提取。
没有使用Guppy调用数据集训练的模型。
关于EpiNano
EpiNano 是一个用于识别直接RNA测序读取中存在的RNA修饰的工具。
EpiNano 将从直接RNA测序读取中提取一组“特征”,这些特征随后将用于预测“错误”是否由RNA修饰的存在引起。直接提取和派生的特征包括:
- 当前强度和持续时间
- 读取质量
- 基础质量分数
- 不匹配频率
- 删除频率
- 插入频率
- sumErr
这些特征可以以每个基础和每个kmer格式组织。
EpiNano的运行模式
在EpiNano 1.2中,我们引入了delta特征,这些特征捕获修饰和未修饰位点之间的差异,以及sum_err,这是通过结合不同类型的错