fast软件_【Nanopore】5. fast5和fastq格式比较及使用basecalling软件获取序列信息

                前言                 

有好几天没有更新了,期间有一些小繁忙,没有充分的时间准备写作素材。

今天周末,有时间写一写了。

前几篇文章中我们分享了Nanopore提高碱基判读准确性的几种方法:包括改善1)测序文库;2)Basecalling工具;3)Reader。今天我们具体看一看basecalling的过程是如何完成的。在3. Basecalling工具比较中我们介绍了目前basecalling准确性较高的三款软件是Guppy、Albacore和Chiron。而其中,Guppy是目前最常用的basecaller,我将着重示例。另外两款软件也给出代码,有需要的可自行尝试。

                正文                 

1. fast5和fastq格式文件比较

在nanopore测序过程中,会在控制软件MinKNOW中设置测序数据的输出文件格式——fast5或fastq。两种文件包含的信息量差异很大。fastq文件是目前二代测序最常用的数据文件格式,主要包含了序列的名称。如下图:

1903281f41d1275407803017d52eddc4.png

而fast5文档记录了nanopore测序过程中产生的所有设置信息:包括测序过程中产生的电信号、信号间隔时间等等。若需要分析序列甲基化等数据,则必须使用fast5格式,以提取电信号。fast5格式数据如下图(使用过HDFView软件查看):

91a2999320b253d1470bbc34852946a7.png

c5cef81f58f795ae6c827c47fe68ae7a.png

因此,如果单纯只分析序列信息,而不需要分析甲基化等信息,可以选择使用fastq文件;而要研究序列修饰信息,则使用fast5文件。

2. fast5格式文件合并与拆分

有时需要对多个fast5文件进行合并,生成一个multi_fast5文件,使得一个fast5文件中可以包含若干条reads,可设定为4

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值