Canu简介
Canu是Celera的继任者,能用于组装PacBio和Nanopore两家公司得到的测序结果。
Canu分为三个步骤,纠错,修整和组装,每一步都差不多是如下几个步骤:
- 加载read到read数据库,gkpStore
- 对k-mer进行技术,用于计算序列间的overlap
- 计算overlap
- 加载overlap到overlap数据库,OvlStore
- 根据read和overlap完成特定分析目标
- read纠错时会从overlap中挑选一致性序列替换原始的噪声read
- read修整时会使用overlap确定read哪些区域是高质量区域,哪些区域质量较低需要修整。最后保留单个最高质量的序列块
- 序列组装时根据一致的overlap对序列进行编排(layout), 最后得到contig。
这三步可以分开运行,既可以用Canu纠错后结果作为其他组装软件的输入,也可以将其他软件的纠错结果作为Canu的输入,因此下面分别运行这三步,并介绍重要的参数。
几个全局参数:genomeSize设置预估的基因组大小,这用于让Canu估计测序深度; maxThreads设置运行的最大线程数;rawErrorRate用来设置两个未纠错read之间最大期望差异碱基数;correctedErrorRate则是设置纠错后read之间最大期望差异碱基数,这个参数需要在 组装 时多次调整;minReadLength表示只使用大于阈值的序列,minOverlap