Oxford Nanopore Technologies碱基识别软件Guppy的关键参数“-c”

目录

一、前言

二、什么是配置文件(cfg文件)?

三、Guppy命令行中的"-c"

1.安装

2.命令行调用

3.cfg文件的选择

4."-c"参数的替代选项

四、总结


一、前言

Oxford Nanopore Technologies(ONT)在持续更新试剂耗材的同时,也在同步更新其碱基识别软件Guppy,目前已更新至6.4.6版本。Guppy既可单独下载部署于PC端或服务器端,也可以通过ONT测序控制软件MinKNOW进行调用。值得注意的是,PC端或服务器端部署有与Guppy匹配的GPU时,可在进行碱基识别(basecalling)时调用这些GPU进行加速计算,可大大减少碱基识别流转时长。也意味着,如果PC端或服务器端仅有CPU时,使用Guppy进行basecalling耗时会比较长。调用Guppy最需要注意的是,使用的配置文件(cfg文件)应与实际测序使用的测序芯片和试剂相匹配。

二、什么是配置文件(cfg文件)?

Guppy进行碱基识别时,用户需要告知用哪一种配置(cfg文件)进行basecalling。这里提到的配置,有2重意思:一是要指明用哪一种碱基识别模型,比如要从Fast、High accuracy (HAC/hac) 和Super accurate (SUP/sup) 中选一种;二是要明确使用的测序试剂盒耗材。目前Guppy支持的测序芯片和试剂类型如下所示,图中的E8、E8.1和E8.2代表不同系列的试剂所采用的的酶(enzyme motor)。

 同一批测序电信号文件,可以使用不同的碱基识别模型,只是准确度、计算资源和耗时有所不同。在ONT官网上对3种碱基识别模型有如下描述,简而言之就是Fast模型耗时最少,准确度最低;SUP模型需要的计算资源最多,但准确度也最高。用户使用时需要做个取舍。

The Fast model is designed to keep up with data generation on Oxford Nanopore devices (MinION Mk1C, GridION, PromethION). The HAC model provides a higher raw read accuracy than the Fast model and is currently 5-8 times more computationally-intensive. The Super accurate model has an even higher raw read accuracy, and is ~3 times more intensive than the HAC model.

三、Guppy命令行中的"-c"

1.安装

Guppy的安装相对简单,在https://community.nanoporetech.com/downloads页面找到Guppy,选中指定的版本下载安装即可。

2.命令行调用

以Ubuntu20.04为例,下载安装后,可在指定的安装目录(一般为ont-guppy)下的bin目录中找到guppy_basecaller,在Terminal中输入guppy_basecaller -h,可获得如下页面:

3.cfg文件的选择

通过如下帮助文档,可以清楚地看到,需要用户结合测序实验给定匹配的cfg文件。

With config file:
  guppy_basecaller -i <input path> -s <save path> -c <config file> [options]

那么,怎么查看Guppy支持的cfg文件呢?可以在ont-guppy下的data目录中找到以cfg为后缀的文件。

cfg文件有其命名规则,如:

<strand_type>_<pore_type>_<enzyme_type>_[modbases_specifier]_<model_type>_[instrument_type].cfg

这里给出大致解释:

strand_type: "dna"或"rna",取决于测序模板.

pore_type: 可以理解为使用的测序芯片类型,如"r9.4.1"或"r10.4".

enzyme_type: 测序试剂总使用的马达酶,可以以酶的版本或酶的过孔速度来指定,如"e8.1" 或 "450bps".

modbase_specifier: 可选项,用于识别修饰碱基,如"5mc_cg"或"5hmc_5mc_cg".

model_type: 前文提到的fast、hac、sup或sketch(Sketch basecalling. This is primarily for use with adaptive sampling on the MinION Mk1C device to minimise latency.).

instrument_type: 可选项。如果没有指定,就默认为GridION或PC。"mk1c"或"prom"分别自带为MinION Mk1C或PromethION。

4."-c"参数的替代选项

当然,也并非必须使用"-c" 参数进行碱基识别。还可以通过给出"--flowcell"和"--kit"参数来代替"-c"参数。

With flowcell and kit name:
  guppy_basecaller -i <input path> -s <save path> --flowcell <flowcell name>
    --kit <kit name>

通过如下命令来查看支持的试剂盒和测序芯片:

guppy_basecaller --print_workflows

部分结果如下:

 但要注意的是,cfg文件涵盖的碱基识别模型要比"--flowcell"和"--kit"参数对应的模型要多,所以,还是建议以"-c"参数为主。

四、总结

"-c"参数比"--flowcell"和"--kit"参数对应的模型文件多,且一旦指定了"-c"参数,那么即使再指定"--flowcell"和"--kit"参数,Guppy也会忽略掉这2个参数,而是以"-c"为主。正确地选择cfg文件对进行碱基识别至关重要,用户在使用Guppy时应注意。

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 12
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值