使用hicanu组装hifi基因组的方法介绍

介绍

Canu专门组装PacBio或Oxford Nanopore序列。Canu分为三个阶段:校正、修整和装配。校正阶段将提高读取中基数的准确性。微调阶段将微调显示为高质量序列的部分的读取,删除可疑区域,如剩余的SMRTbell适配器。组装阶段将把读取排序为重叠,生成一致序列,并创建备用路径图。
输入序列可以是FASTA或FASTQ格式,未压缩或用gzip(.gz)、bzip2(.bz2)或xz(.xz)压缩。请注意,不支持zip文件(.zip)。

官方测试数据下载

下面包括了pacbio、Nanopore以及Pacbio HIFI的测试数据集

#Pacific Biosciences released P6-C4 chemistry reads for Escherichia coli K12. 
curl -L -o pacbio.fastq http://gembox.cbcb.umd.edu/mhap/raw/ecoli_p6_25x.filtered.fastq

#Oxford Nanopore样本数据(Escherichia coli K12)
curl -L -o oxford.fasta http://nanopore.s3.climb.ac.uk/MAP006-PCR-1_2D_pass.fasta

#PacBio测序的大肠杆菌K12 HiFi数据集
curl -L -o ecoli.fastq https://sra-pub-src-1.s3.amazonaws.com/SRR10971019/m54316_180808_005743.fastq.1

canu \
 -p asm -d ecoli_hifi \
 genomeSize=4.8m \
 -pacbio-hifi ecoli.fastq

软件安装

#Conda
conda install -c conda-forge -c bioconda -c defaults canu
#Homebrew
brew install brewsci/bio/canu
#使用源代码中的最新未发行版本
git clone https://github.com/marbl/canu.git
cd canu/src
make -j <number of threads>

用法

canu [-haplotype|-correct|-trim] \
   [-s <assembly-specifications-file>] \
   -p <assembly-prefix> \
   -d <assembly-directory> \
   genomeSize=<number>[g|m|k] \
   [other-options] \
   [-trimmed|-untrimmed|-raw|-corrected] \
   [-pacbio|-nanopore|-pacbio-hifi] *fastq

-p选项用于设置中间文件和输出文件的文件名前缀
-s选项将从提供的规范(“ spec”)文件中导入参数列表。
-pacbio和-nanopore假定为原始和未修剪,而-pacbio hifi假定为校正和修剪
使用-pacbio-corrected或-nanopore-corrected 提供预校正的读操作将只运行修剪和组装阶段。
指定reads作为 -corrected -untrimmed将只运行组装步骤。

rawErrorRate <float=unset>
两次未修正的读取之间重叠的允许差值,用分数误差表示;通常不需要修改(PacBio read的默认值为0.300,Nanopore read的默认值为0.500)
correctedErrorRate <float=unset>
两次修正后的读数之间重叠的允许差值,用分数误差表示(PacBio read的默认值为0.045,Nanopore read的默认值为0.144);对于低覆盖率数据集((less than 30X),建议将校正错误率稍微增加1%左右。对于高覆盖率数据集(more than 60X),我们建议将校正错误率稍微降低1%左右。

Canu官方文档

组装PacBio CLR或Nanopore数据

For PacBio:

canu \
 -p ecoli -d ecoli-pacbio \
 genomeSize=4.8m \
 -pacbio pacbio.fastq

For Nanopore:

canu \
 -p ecoli -d ecoli-oxford \
 genomeSize=4.8m \
 -nanopore oxford.fasta

用HiCanu组装PacBio HiFi

HiCanu通过压缩均聚物、纠正孤立错误和掩盖系统错误来支持PacBio HiFi数据。现在将组装大肠杆菌K12 HiFi数据集,并通过PacBio测序,可在NCBI SRA(3 GB)获得。组装时,使用-pacbio hifi指定输入读数:

#常规组装
canu -p asm -d <outDir> genomeSize=<GSize> useGrid=false maxThreads=<nThreads> \
-pacbio-hifi <HiFi-reads.fasta>

# For trio binning assembly
canu -haplotype -p asm -d <outDir> genomeSize=<GSize> useGrid=false \
maxThreads=<nThreads> -haplotypePat <pat-reads.fq> -haplotypeMat <mat-reads.fq> \
-pacbio-raw <HiFi-reads.fasta>
curl -L -o ecoli.fastq https://sra-pub-src-1.s3.amazonaws.com/SRR10971019/m54316_180808_005743.fastq.1

canu \
 -p asm -d ecoli_hifi \
 genomeSize=4.8m \
 -pacbio-hifi ecoli.fastq

使用多种技术和多个文件进行组装

Canu可以读取任意数量的输入文件,这些文件可以是多种格式和技术的混合体。请注意,当前不支持将PacBio HiFi数据与其他数据类型相结合。官网文档将在两个FASTQ文件中组合10X PacBio CLR读取,在一个FASTA文件中组合10X Nanopore读取:

curl -L -o mix.tar.gz http://gembox.cbcb.umd.edu/mhap/raw/ecoliP6Oxford.tar.gz
tar xvzf mix.tar.gz

canu \
 -p ecoli -d ecoli-mix \
 genomeSize=4.8m \
 -pacbio pacbio.part?.fastq.gz \
 -nanopore oxford.fasta.gz

手动校正,修剪和组装

  1. 矫正原始数据
  2. 修剪校正的输出
  3. 用不同的严格度将修剪的输出组装两次,重叠使用(参考此处)
canu \
  -p ecoli -d ecoli-erate-0.039 \
  genomeSize=4.8m \
  correctedErrorRate=0.039 \
  -trimmed -corrected -pacbio ecoli/ecoli.trimmedReads.fasta.gz

canu \
  -p ecoli -d ecoli-erate-0.075 \
  genomeSize=4.8m \
  correctedErrorRate=0.075 \
  -trimmed -corrected -pacbio ecoli/ecoli.trimmedReads.fasta.gz

Consensus Accuracy

使用PacBio-HiFi数据的HiCanu一致序列通常远高于99.99%,官方文档说到不鼓励对这些组件进行任何后期处理/抛光,因为重复中的mis-mapping可能会导致错误。

对于PacBio数据集,Canu一致序列通常远高于99%的一致性。纳米孔的准确度因孔和基孔的不同而不同,但对于最新的数据,准确度通常在99%以上。精确性可以通过使用专门为该任务开发的工具来提高。
Canu推荐Arrow用于PacBio,Nanopolish或Medaka用于Oxford Nanpore数据。当Illumina reads可用时,FreeBayes可用于polish either PacBio or Oxford Nanopore assemblies.

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 使用hifiasm组装基因组时,对HiFi数据进行纠错非常重要。HiFi数据的准确性比传统的测序数据更高,但是仍然可能包含一些错误,如插入、缺失或替换错误。因此,在进行组装之前,需要对HiFi数据进行错误纠正,以确保生成高质量的基因组hifiasm已经内置了错误纠正功能,可以根据HiFi数据进行纠正,提高组装结果的质量。因此,当使用hifiasm组装HiFi数据时,需要对数据进行错误纠正。 ### 回答2: 在使用hifiasm进行基因组组装时,是否需要对HiFi数据进行纠错,这取决于HiFi数据的质量和组装需求。HiFi(高保真)测序技术相较于传统的二代测序技术,具有较高的准确性和较低的错误率,因此在某些情况下可以省略纠错步骤。 首先,如果HiFi数据的质量非常高,即错误率非常低,组装的结果能够满足研究需求,那么可以直接使用未经纠错的HiFi数据进行组装。这样可以节省时间和资源,同时避免引入额外的错误。 其次,如果组装的目标是对基因组结构和变异进行较精确的分析,如鉴定重复序列、融合基因、基因型等,那么纠错可能是必要的。因为高保真测序虽然准确性高,但仍有一定的错误率,这些错误可能会对特定应用产生影响,如在辨识高度相似序列时容易产生错配。在这种情况下,建议对HiFi数据进行纠错,以提高组装的精度和准确性。 总之,使用hifiasm组装基因组时,是否需要对HiFi数据进行纠错取决于数据质量和组装需求。对于高质量的HiFi数据,可以直接使用未经纠错的数据进行组装。然而,如果需要获得更精确的基因组结构和变异信息,则建议对HiFi数据进行纠错,以提高组装的准确性和可靠性。 ### 回答3: 使用hifiasm组装基因组时,是否需要对HiFi数据进行纠错取决于HiFi数据的质量和组装的目标。HiFi数据是指具有较高准确性的长读长(Long-read)测序数据,相对于传统的短读长(Short-read)测序数据,具有更高的连续性和能力解决重复区域等难题。 首先,如果HiFi数据质量较高,经过质控处理后已经具有较高的准确性,那么在组装基因组时就不一定需要进行纠错。这是因为HiFi数据的准确性已经相对较高,可以直接用于组装,减少了纠错的需求,同时提高了组装的准确性和连续性。 相反,如果HiFi数据质量较差,包含较多的错误、缺失或假阳性,那么在进行组装之前,需要对HiFi数据进行纠错。纠错的目的是通过使用纠错算法来修复错误或缺失的序列,以提高数据的准确性、连续性和可信度。纠错通常包括错误校正和碱基修复等步骤,这些步骤可以帮助消除测序错误并提高测序数据的质量,从而更好地进行基因组组装。 总之,是否需要对HiFi数据进行纠错的问题具有一定的灵活性,需要根据具体的数据质量和组装的目标来决定。如果数据质量较高,可以直接进行组装,而如果数据质量较差,则需要对数据进行纠错以提高组装的准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值