hisat2-build

hisat2-build是一个基于FMI索引的基因组比对器的索引构建工具,采用Karkkainen的逐块算法。通过指定选项如--large-index和--offrate,用户可以在时间和内存使用之间进行权衡。该工具需要参考FASTA文件,生成的索引文件以.1.ht2到.8.ht2命名。若要构建大型索引,即使参考小于40亿碱基,也可使用--large-index选项。此外,可使用extract_exons.py和extract_splice_sites.py脚本提取exon和splice sites信息。
摘要由CSDN通过智能技术生成

 The hisat2-build indexer

使用dna文件构建索引,输出后缀为.1.ht2到.8.ht2的八个文件。如果索引较大,后缀改为ht2l。后续的比对需要这八个文件,并且一旦索引构建成功,就不在需要原始的dna文件。

使用Karkkainen的逐块算法可以使hisat2构建在运行时间和内存使用之间进行权衡。hisat2-build具有三种控制权衡的选项:[-p /-packed],-bmax /-bmaxdivn和--dcv。默认情况下,histat2-build将自动搜索设置,从而使用最佳运行时间但不会耗尽内存。也可以使用-a /-noauto选项禁用此行为

索引器提供与索引的“形状”相关的选项,例如,--offrate控制“标记”的Burrows-Wheeler行的分数(即后缀数组样本的密度;有关详细信息,请参见原始FM索引文件)。当然,可以根据实际应用修改参数。但根据我们的实验,已将它们设置为对于大多数情况都合理的默认值。 有关详细信息,请参见性能调整。

hisat2可以构建大的或者小的索引,封装好的软件将根据基因组的大小自动决定
如果引用不超过40亿个字符,但想构建大索引,则用户可以指定--large-index来强制hisat2-build来构建大索引。

HISAT2索引基于Ferragina和Manzini的FM索引,而FM索引又基于Burrows-Wheeler变换。 
用于建立索引的算法基于Karkkainen的分块算法。
Command Line
Usage:

hisat2-build [options]* <reference_in> <ht2_base>
Notes
If you use --snp, --ss, and/or --exon, h

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值