前言
有好几天没有更新了,期间有一些小繁忙,没有充分的时间准备写作素材。
今天周末,有时间写一写了。
前几篇文章中我们分享了Nanopore提高碱基判读准确性的几种方法:包括改善1)测序文库;2)Basecalling工具;3)Reader。今天我们具体看一看basecalling的过程是如何完成的。在3. Basecalling工具比较中我们介绍了目前basecalling准确性较高的三款软件是Guppy、Albacore和Chiron。而其中,Guppy是目前最常用的basecaller,我将着重示例。另外两款软件也给出代码,有需要的可自行尝试。
正文
1. fast5和fastq格式文件比较
在nanopore测序过程中,会在控制软件MinKNOW中设置测序数据的输出文件格式——fast5或fastq。两种文件包含的信息量差异很大。fastq文件是目前二代测序最常用的数据文件格式,主要包含了序列的名称。如下图:
而fast5文档记录了nanopore测序过程中产生的所有设置信息:包括测序过程中产生的电信号、信号间隔时间等等。若需要分析序列甲基化等数据,则必须使用fast5格式,以提取电信号。fast5格式数据如下图(使用过HDFView软件查看):
因此,如果单纯只分析序列信息,而不需要分析甲基化等信息,可以选择使用fastq文件;而要研究序列修饰信息,则使用fast5文件。
2. fast5格式文件合并与拆分
有时需要对多个fast5文件进行合并,生成一个multi_fast5文件,使得一个fast5文件中可以包含若干条reads,可设定为400