The hisat2-build indexer
使用dna文件构建索引,输出后缀为.1.ht2到.8.ht2的八个文件。如果索引较大,后缀改为ht2l。后续的比对需要这八个文件,并且一旦索引构建成功,就不在需要原始的dna文件。
使用Karkkainen的逐块算法可以使hisat2构建在运行时间和内存使用之间进行权衡。hisat2-build具有三种控制权衡的选项:[-p /-packed],-bmax /-bmaxdivn和--dcv。默认情况下,histat2-build将自动搜索设置,从而使用最佳运行时间但不会耗尽内存。也可以使用-a /-noauto选项禁用此行为
索引器提供与索引的“形状”相关的选项,例如,--offrate控制“标记”的Burrows-Wheeler行的分数(即后缀数组样本的密度;有关详细信息,请参见原始FM索引文件)。当然,可以根据实际应用修改参数。但根据我们的实验,已将它们设置为对于大多数情况都合理的默认值。 有关详细信息,请参见性能调整。
hisat2可以构建大的或者小的索引,封装好的软件将根据基因组的大小自动决定
如果引用不超过40亿个字符,但想构建大索引,则用户可以指定--large-index来强制hisat2-build来构建大索引。
HISAT2索引基于Ferragina和Manzini的FM索引,而FM索引又基于Burrows-Wheeler变换。
用于建立索引的算法基于Karkkainen的分块算法。
Command Line
Usage:
hisat2-build [options]* <reference_in> <ht2_base>
Notes
If you use --snp, --ss, and/or --exon, h