canu/hifiasm进行HIFI数据初步组装示例


嗨嗨嗨,你好! 这是你第一次使用 HIFI数据 进行基因组组装,如果你想学习如何使用canu和hifiasm对基因组进行初步组装, 可以仔细阅读这篇文章,了解一下这两个软件的基本使用方法。

软件安装

软件安装我推荐使用conda安装,配置好源之后方便快捷。当然要是对版本有要求可以选择自己编译安装,conda内的版本不是齐全的。在使用conda的时候尽管配置好了源,也希望在安装软件的时候先去官网https://anaconda.org/anaconda/conda查一下安装命令。

canu安装

conda安装canu命令:

conda install -c anaconda conda

hifiasm安装

conda安装hifiasm命令:

conda install -c bioconda hifiasm

组装

canu组装HIFI

canu -p asm -d smocanu genomeSize=120m useGrid=false maxThreads=8
-pacbio-hifi xxx.fastq.gz 2> canu.txt

HIFIASM组装HIFI

hifiasm -o asm -t 8 xxx.fastq.gz 2>
HIFI_HIC.txt

HIFIASM组装HIFI+HIC

hifiasm --primary -o asm -t 8 --h1 xxx_R1.fastq.gz --h2
xxx_R2.fastq.gz xxx.fastq.gz >
HIFI_HIC.txt

注 HIFIASM组装结果为xxx…p_ctg.gfa需要转换一下格式参考我以前的博客

粗略比较一下这三个的结果

查看fasta文件的序列名字-长度-数量的python代码

# 运行命令 python read_fasta.py fasta_file
from Bio import SeqIO
import sys


num = 0
for seq_record in SeqIO.parse(sys.argv[1], "fasta"):
	num += 1
	print(seq_record.id,'	',len(str(seq_record.seq)),'	',num)

两个软件的运行结果

结果让人震惊

单从contig数量来说HIFIASM的组装结果要比CANU要好那么一点点,也许这一点就来自对HIFI数据的优化吧,但是在HIFIASM未添加HIC数据和添加HIC数据的结果对比中,添加HIC数据之后contig的数量反而增加了???
博客写的匆忙,待我进一步补充后续结果比对之后再作补充!

最后

这一期主要是补充一下半年前的博客的第一步。提供的数据仅供参考,要是有人对这个问题感兴趣的话我们可以探讨一下,上次博客让我认识了很多有趣的大佬,这次也是一样,我希望创建一个对基因组组装问题有问必答的群,欢迎各位大佬加入。进群请charles_kiko@163.com 备注基因组加群。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值