使用Falcon对三代测序进行基因组组装

本文详细介绍了使用Falcon进行三代测序数据的基因组组装过程,包括准备数据、创建FOFN、配置文件的设定、运行程序以及评估组装结果。Falcon分为HGAP、Falcon和Falcon-Unzip三个部分,适用于不同类型的基因组组装。在实践中,通过调整参数和学习官方文档,可以优化组装效果。文章以E. coli为例,展示了组装步骤,并警告了可能遇到的内存消耗问题及其解决方案。
摘要由CSDN通过智能技术生成

Falcon是PacBio公司开发的用于自家SMRT产出数据的基因组组装工具。Falcon分为三个部分:

  • HGAP:PacBio最先开发的工具,用于组装细菌基因组,名字缩写自Hierarchical genome-assembly process(层次基因组组装进程)。 适用于已知复杂度的基因组,且基因组大小不能超过3Gb. 由于是图形界面,所以用起来会非常方便。
  • Falcon:和HGAP工作流程相似,可认为是命令行版本的HGAP,能与Falcon-Unzip无缝衔接。
  • Falcon-Unzip: 适用于杂合度较高或者远亲繁殖或者是多倍体的物种

层次基因组组装过程(HGAP)分为两轮.

第一轮是选择种子序列或者是数据集中最长的序列(通过length_cufoff设置),比较短的序列比对到长序列上用于产生高可信度的一致性序列。PacBio称其为预组装(pre-asembled), 其实和纠错等价。这一步可能会将种子序列在低覆盖度的区域进行分割(split)或者修整(trim),由falcon_sense_options参数控制,最后得到preads(pre-assembled reads)。

第二轮是将preads相互比对,从而组装成contigs(contig指的是连续的不间断的基因组序列, contiguous sequence)

img_2bbd361df7d0b2885b0fecae7cff7168.jpe
HGAP

基因组最后组装结果是单倍体,但实际上人类、动物和植物大部分的基因组都是二倍体,两套染色体之间或多或少存在的差异。这种差异在组装时就是“图”里的气泡(bubble)。PacBio开发的Falcon-Unzip就是用来处理“气泡”,把不同单倍型的contig分开。

img_09c645034d57a7452ddb2a7987cd355b.jpe
Falcon-Unzip
运行参数分类

Falcon的运行非常简单,就是准备好配置文件传给fc_run.py,然后让fc_run.py调度所有需要的软件完成基因组组装即可。只不过初学者一开始可能会迷失在茫茫的参数中,所以我们要对参数进行划分,分层理解。

参数从是否直接参与基因组组装分为任务投递管理系统相关和实际

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值