Hisat2是一款用于将测序读段(reads)比对(align)到参考基因组上的软件。以下是Hisat2的基本用法及其参数含义的中文说明:
基本用法
要使用Hisat2进行比对,你需要提供一个索引文件(由.fasta
参考基因组文件构建而成)和测序读段文件。以下是Hisat2比对的基本命令格式:
hisat2 [选项] -x <索引前缀> {-1 <读段1> -2 <读段2> | -U <单端读段>} [-S <SAM输出文件>]
<索引前缀>
:索引文件的名称前缀(不包括后面的.X.ht2
)。<读段1>
和<读段2>
:成对的读段文件,可以是压缩的(.gz
或.bz2
)。<单端读段>
:单端读段文件,可以是压缩的。<SAM输出文件>
:输出的SAM格式的比对结果文件。
常用参数及其含义
-x <索引前缀>
:指定索引文件的名称前缀。-1 <读段1>
和-2 <读段2>
:指定成对读段的文件路径。-U <单端读段>
:指定单端读段的文件路径。-S <SAM输出文件>
:指定输出SAM文件的路径。-p <线程数>
:指定使用的线程数,以提高比对速度。--phred33
和--phred64
:指定测序质量值的编码方式(默认为Phred+33)。--fast
、--sensitive
、--very-sensitive
:预设参数,用于调整比对敏感性和速度。--bowtie2-dp <int>
:使用Bowtie2的动态规划比对算法(0表示不使用,1表示有条件使用,2表示无条件使用)。--n-ceil <func>
:设置比对中允许的非ACGT字符的最大数量。--ignore-quals
:忽略质量值,将所有质量值视为30。--no-softclip
:不进行软剪辑。--rdg <int>,<int>
和--rfg <int>,<int>
:设置读段和参考基因组比对时的缺口开放和延伸惩罚。-k <int>
:最多搜索指定数量的不同比对位置。--max-seeds <int>
:设置最多扩展的种子数量。--un <path>
和--al <path>
:分别指定未比对和至少比对一次的读段的输出路径。--un-conc <path>
和--al-conc <path>
:分别指定不成对和至少成对比对的读段的输出路径。--time
:打印比对各阶段所花费的时间。--reorder
:使SAM输出顺序与输入读段顺序一致。
RNA-seq特定参数
--rna-strandness <string>
:指定RNA-seq数据的链特异性信息。--no-spliced-alignment
:禁用剪接比对。--min-intronlen <int>
和--max-intronlen <int>
:设置允许的最小和最大内含子长度。