HIFI数据组装 HIFI -> CANU / HIFIASM
嗨嗨嗨,你好! 这是你第一次使用 HIFI数据 进行基因组组装,如果你想学习如何使用canu和hifiasm对基因组进行初步组装, 可以仔细阅读这篇文章,了解一下这两个软件的基本使用方法。
软件安装
软件安装我推荐使用conda安装,配置好源之后方便快捷。当然要是对版本有要求可以选择自己编译安装,conda内的版本不是齐全的。在使用conda的时候尽管配置好了源,也希望在安装软件的时候先去官网https://anaconda.org/anaconda/conda查一下安装命令。
canu安装
conda安装canu命令:
conda install -c anaconda conda
hifiasm安装
conda安装hifiasm命令:
conda install -c bioconda hifiasm
组装
canu组装HIFI
canu -p asm -d smocanu genomeSize=120m useGrid=false maxThreads=8
-pacbio-hifi xxx.fastq.gz 2> canu.txt
HIFIASM组装HIFI
hifiasm -o asm -t 8 xxx.fastq.gz 2>
HIFI_HIC.txt
HIFIASM组装HIFI+HIC
hifiasm --primary -o asm -t 8 --h1 xxx_R1.fastq.gz --h2
xxx_R2.fastq.gz xxx.fastq.gz >
HIFI_HIC.txt
注 HIFIASM组装结果为xxx…p_ctg.gfa需要转换一下格式参考我以前的博客
粗略比较一下这三个的结果
查看fasta文件的序列名字-长度-数量的python代码
# 运行命令 python read_fasta.py fasta_file
from Bio import SeqIO
import sys
num = 0
for seq_record in SeqIO.parse(sys.argv[1], "fasta"):
num += 1
print(seq_record.id,' ',len(str(seq_record.seq)),' ',num)
结果让人震惊
单从contig数量来说HIFIASM的组装结果要比CANU要好那么一点点,也许这一点就来自对HIFI数据的优化吧,但是在HIFIASM未添加HIC数据和添加HIC数据的结果对比中,添加HIC数据之后contig的数量反而增加了???
博客写的匆忙,待我进一步补充后续结果比对之后再作补充!
最后
这一期主要是补充一下半年前的博客的第一步。提供的数据仅供参考,要是有人对这个问题感兴趣的话我们可以探讨一下,上次博客让我认识了很多有趣的大佬,这次也是一样,我希望创建一个对基因组组装问题有问必答的群,欢迎各位大佬加入。进群请charles_kiko@163.com 备注基因组加群。