用法
tophat [options]* <genome_index_base> <reads1_1[,...,readsN_1]> [reads1_2,...readsN_2]
Tophat允许在paired reads之后使用额外的unpaired reads,这些unpair reads 既能够在paired reads的末端一侧给出,也能够在单独的文件中给出,这些文件被附加到(逗号隔开)任一侧的配对输入文件的列表。
例如:
tophat [options]* <genome_index_base> PE_reads_1.fq.gz , SE_reads.fa PE_reads_2.fq.gz
‐ or ‐
tophat [options]* <genome_index_base> PE_reads_1.fq.gz PE_reads_2.fq.gz, SE_reads.fa
参数: |
|
<genome_index_base> | 即index中的索引文件名(该文件先在bowtie中建立索引)。先在当前目录中查找索引文件,然后查找当前运行bowtie可执行文件所在目录下的indexes子目录,最后查找在自定义的环境变量BOWTIE_INDEXES(或BOWTIE2_INDEXES)中指定的目录。 |
<reads1_1[,...,readsN_1]> | 包含FASTQ或FASTA格式的reads的文件,多文件可用逗号隔开。 |
<[reads1_2,...readsN_2]> | 包含FASTQ或FASTA格式的reads的文件,多文件可用逗号隔开。仅当用tophat处理paired-end reads并且含有*_2的文件时出现,保证文件1与文件2的顺序相同 |
Options: 操作项 |
|
-h/--help | 显示帮组文档的信息,并退出终端 |
-v/--version | 显示tophat的版本号,并退出终端 |
-N/--read-mismatches | 丢弃错误匹配碱基数超过该数目的比对结果,默认值为2 |
--read-gap-length | 丢弃gap总长度超过该数目的比对结果,默认值为2 |
--read-edit-dist | 丢弃read的edit distance大于该值的比对结果。默认值为2 |
一些跨越多个外显子的reads可能会被错误地比对到geneome上。Tophat有多个比对步骤,每个比对步骤过后,比对结果中包含了edit distance的值。该参数能让Tophat对那些edit distance的值大于等于该参数的reads重新进行比对。若设置该参数值为0,则每个read在多个比对步骤中每次都要进行比对。这样会加大地增加比对精确性和运行时间。默认下该参数比上一个参数的值大,则表示对reads进行重新比对。 | |
--bowtie1 | 使用Bowtie1来代替Bowtie2进行比对。当使用colorspace reads时用到,因为只有Bowtie1支持,而Bowtie2不支持。默认为bowtie2 |
-o/--output-dir <string> | 输出的文件夹路径。默认为"./tophat_out". |
-r/--mate-inner-dist <int> | 成对的reads之间的平均inner距离。例如:fragments长度300bp,两端长度50bp, 则其inner距离为200bp,该值该设为200。默认值:50bp |
--mate-std-dev <int> | inner距离的标准偏差。默认值:20bp |
-a/--min-anchor-length <int> | read的anchor长度:该参数能设定的最小值为3;锚定在junction两边的reads长度只有都大于此值,才能用于junction的验证。默认值:8 |
-m/--splice-mismatches <int> | 对于一个剪切比对,其在anchor区能出现的最大的不匹配碱基数。默认值:0 |
-i/--min-intron-length <int> | 最小的内含子长度。Tophat会忽略比该长度要小的donor/acceptor pairs,认为该区属于外显子。默认是70. |
-I/--max-intron-length <int> | 最大的内含子长度。Tophat会忽略长度大于该值的donor/acceptor pairs,除非有long read支持。默认值是500000. |
--max-insertion-length <int> | 最大的插入长度。默认值是3. |
--max-deletion-length <int> | 最大缺失长度,默认值是3. |
--solexa-quals | 对fastq文件使用Solexa的碱基质量格式 |
--solexa1.3-quals | 使用Illumina GA pipeline version 1.3的碱基质量格式,即Phred64. |
-Q/--quals | 使用单独的碱基质量文件 |
--integer-quals | 有空格隔开的整数值来代表碱基质量。当使用 -C 参数时,该参数为默认参数。 |
-C/--color | Colorspace reads, 注意使用一个 colorspace bowtie 索引而且需要Bowtie 0.12.6 及以上. |
-p/--num-threads <int> | 比对时使用的线程数,默认是1. |
-g/--max-multihits <int> | 对于一个reads,可能会有多个比对结果,但tophat根据比对给分,最多保留的比对结 果数目。如果没有--report-secondary-alignments 参数,则只会报告出最佳的比对结果。若最佳比对结果数目超过该参数值,则只随机报告出该数目的最佳比对结果;若有 -- report-secondary-alignments 参数,则按得分顺序报告出比对结果,直至达到默认 的数目为止。 |
--report-secondary-alignments | 默认情况下,TopHat根据比对分数(AS)报告最佳或主要比对结果。如果要输出其他或次要比对结果(这种方法最多报告20个比对,此限制可以通过使用上面的-g / - max-multihits选项更改)请使用此选项。 |
--no-discordant | 对于paired reads,仅仅报告concordant mappings。 |
--no-mixed | 对于paired reads,只报告concordant mappings 和 discordant mappings。默认上,是所有的比对结果都报告。 |
--no-coverage-search | 取消以coverage为基础来搜寻junctions,和下一个参数互斥,该参数为默认参数。 |
--coverage-search | 确定以覆盖度为基础来搜寻junctions。以获得最大灵敏度 |
--microexon-search | 使用该参数,pipeline会尝试寻找micro-exons。仅仅在reads长度>=50bp时有效。 |
--library-type | Tophat处理的reads具有链特异性。比对结果中将会有个XS标签。一般Illumina数据的library-type为 fr-unstranded。 |