生物信息学习——tophat使用手册

原文章地址: http://ccb.jhu.edu/software/tophat/manual.shtml

用法

tophat  [options]* <genome_index_base>  <reads1_1[,...,readsN_1]>  [reads1_2,...readsN_2]

Tophat允许在paired reads之后使用额外的unpaired reads,这些unpair reads 既能够在paired reads的末端一侧给出,也能够在单独的文件中给出,这些文件被附加到(逗号隔开)任一侧的配对输入文件的列表。

例如:

tophat [options]* <genome_index_base>  PE_reads_1.fq.gz , SE_reads.fa  PE_reads_2.fq.gz
or
tophat [options]* <genome_index_base>  PE_reads_1.fq.gz  PE_reads_2.fq.gz, SE_reads.fa

参数:

 

<genome_index_base> 

即index中的索引文件名(该文件先在bowtie中建立索引)。先在当前目录中查找索引文件,然后查找当前运行bowtie可执行文件所在目录下的indexes子目录,最后查找在自定义的环境变量BOWTIE_INDEXES(或BOWTIE2_INDEXES)中指定的目录。
建议将要建立索引的基因组序列(reference,FASTA文件)与Bowtie索引文件(index)存在于同一目录中,并且名称为<genome_index_base> .fa。 如果不存在,TopHat将从Bowtie索引文件中自动重建此FASTA文件。

<reads1_1[,...,readsN_1]> 

包含FASTQ或FASTA格式的reads的文件,多文件可用逗号隔开。

<[reads1_2,...readsN_2]> 

包含FASTQ或FASTA格式的reads的文件,多文件可用逗号隔开。仅当用tophat处理paired-end reads并且含有*_2的文件时出现,保证文件1与文件2的顺序相同

Options: 操作项

 

-h/--help 

显示帮组文档的信息,并退出终端 

-v/--version 

显示tophat的版本号,并退出终端

-N/--read-mismatches 

丢弃错误匹配碱基数超过该数目的比对结果,默认值为2

--read-gap-length 

丢弃gap总长度超过该数目的比对结果,默认值为2

--read-edit-dist 

丢弃read的edit distance大于该值的比对结果。默认值为2 

--read-realign-edit-dist

一些跨越多个外显子的reads可能会被错误地比对到geneome上。Tophat有多个比对步骤,每个比对步骤过后,比对结果中包含了edit distance的值。该参数能让Tophat对那些edit distance的值大于等于该参数的reads重新进行比对。若设置该参数值为0,则每个read在多个比对步骤中每次都要进行比对。这样会加大地增加比对精确性和运行时间。默认下该参数比上一个参数的值大,则表示对reads进行重新比对。

--bowtie1 

使用Bowtie1来代替Bowtie2进行比对。当使用colorspace reads时用到,因为只有Bowtie1支持,而Bowtie2不支持。默认为bowtie2

-o/--output-dir <string> 

输出的文件夹路径。默认为"./tophat_out".

-r/--mate-inner-dist <int> 

成对的reads之间的平均inner距离。例如:fragments长度300bp,两端长度50bp, 则其inner距离为200bp,该值该设为200。默认值:50bp

--mate-std-dev <int> 

inner距离的标准偏差。默认值:20bp

-a/--min-anchor-length <int> 

read的anchor长度:该参数能设定的最小值为3;锚定在junction两边的reads长度只有都大于此值,才能用于junction的验证。默认值:8

-m/--splice-mismatches <int> 

对于一个剪切比对,其在anchor区能出现的最大的不匹配碱基数。默认值:0

-i/--min-intron-length <int> 

最小的内含子长度。Tophat会忽略比该长度要小的donor/acceptor pairs,认为该区属于外显子。默认是70.

-I/--max-intron-length <int> 

最大的内含子长度。Tophat会忽略长度大于该值的donor/acceptor pairs,除非有long read支持。默认值是500000.

--max-insertion-length <int> 

最大的插入长度。默认值是3.

--max-deletion-length <int> 

最大缺失长度,默认值是3.

--solexa-quals 

对fastq文件使用Solexa的碱基质量格式

--solexa1.3-quals 

使用Illumina GA pipeline version 1.3的碱基质量格式,即Phred64.

-Q/--quals 

使用单独的碱基质量文件 

--integer-quals 

有空格隔开的整数值来代表碱基质量。当使用 -C 参数时,该参数为默认参数。

-C/--color 

Colorspace reads, 注意使用一个 colorspace bowtie 索引而且需要Bowtie 0.12.6 及以上.
通常用法: tophat --color --quals [other options]* <colorspace_index_base> <reads1_1[,...,readsN_1]> [reads1_2,...readsN_2] <quals1_1[,...,qualsN_1]> [quals1_2,...qualsN_2]

-p/--num-threads <int> 

比对时使用的线程数,默认是1.

-g/--max-multihits <int> 

对于一个reads,可能会有多个比对结果,但tophat根据比对给分,最多保留的比对结

果数目。如果没有--report-secondary-alignments 参数,则只会报告出最佳的比对结果。若最佳比对结果数目超过该参数值,则只随机报告出该数目的最佳比对结果;若有 --

report-secondary-alignments 参数,则按得分顺序报告出比对结果,直至达到默认

的数目为止。

--report-secondary-alignments 

默认情况下,TopHat根据比对分数(AS)报告最佳或主要比对结果。如果要输出其他或次要比对结果(这种方法最多报告20个比对,此限制可以通过使用上面的-g / - max-multihits选项更改)请使用此选项。

--no-discordant 

对于paired reads,仅仅报告concordant mappings。

--no-mixed 

对于paired reads,只报告concordant mappings 和 discordant mappings。默认上,是所有的比对结果都报告。

--no-coverage-search 

取消以coverage为基础来搜寻junctions,和下一个参数互斥,该参数为默认参数。 

--coverage-search 

确定以覆盖度为基础来搜寻junctions。以获得最大灵敏度

--microexon-search 

使用该参数,pipeline会尝试寻找micro-exons。仅仅在reads长度>=50bp时有效。

--library-type 

Tophat处理的reads具有链特异性。比对结果中将会有个XS标签。一般Illumina数据的library-type为 fr-unstranded。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值