生物信息学习——tophat使用手册

最新推荐文章于 2024-09-15 08:31:42 发布

流汗的干戈

最新推荐文章于 2024-09-15 08:31:42 发布

阅读量9.7k

点赞数 1

分类专栏：生物信息学习文章标签：生物信息 tophat 基因测序

本文链接：https://blog.csdn.net/ganges_zs/article/details/60475028

版权

生物信息学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

原文章地址： http://ccb.jhu.edu/software/tophat/manual.shtml

用法

tophat [options]* <genome_index_base> <reads1_1[,...,readsN_1]> [reads1_2,...readsN_2]

Tophat允许在paired reads之后使用额外的unpaired reads，这些unpair reads 既能够在paired reads的末端一侧给出，也能够在单独的文件中给出，这些文件被附加到（逗号隔开）任一侧的配对输入文件的列表。

例如：

tophat [options]* <genome_index_base> PE_reads_1.fq.gz , SE_reads.fa PE_reads_2.fq.gz
‐ or ‐
tophat [options]* <genome_index_base> PE_reads_1.fq.gz PE_reads_2.fq.gz, SE_reads.fa

参数：
<genome_index_base>	即index中的索引文件名（该文件先在bowtie中建立索引）。先在当前目录中查找索引文件，然后查找当前运行bowtie可执行文件所在目录下的indexes子目录，最后查找在自定义的环境变量BOWTIE_INDEXES（或BOWTIE2_INDEXES）中指定的目录。建议将要建立索引的基因组序列（reference，FASTA文件）与Bowtie索引文件（index）存在于同一目录中，并且名称为<genome_index_base> .fa。如果不存在，TopHat将从Bowtie索引文件中自动重建此FASTA文件。
<reads1_1[,...,readsN_1]>	包含FASTQ或FASTA格式的reads的文件，多文件可用逗号隔开。
<[reads1_2,...readsN_2]>	包含FASTQ或FASTA格式的reads的文件，多文件可用逗号隔开。仅当用tophat处理paired-end reads并且含有*_2的文件时出现，保证文件1与文件2的顺序相同
Options: 操作项
-h/--help	显示帮组文档的信息，并退出终端
-v/--version	显示tophat的版本号，并退出终端
-N/--read-mismatches	丢弃错误匹配碱基数超过该数目的比对结果，默认值为2
--read-gap-length	丢弃gap总长度超过该数目的比对结果，默认值为2
--read-edit-dist	丢弃read的edit distance大于该值的比对结果。默认值为2
--read-realign-edit-dist	一些跨越多个外显子的reads可能会被错误地比对到geneome上。Tophat有多个比对步骤，每个比对步骤过后，比对结果中包含了edit distance的值。该参数能让Tophat对那些edit distance的值大于等于该参数的reads重新进行比对。若设置该参数值为0，则每个read在多个比对步骤中每次都要进行比对。这样会加大地增加比对精确性和运行时间。默认下该参数比上一个参数的值大，则表示对reads进行重新比对。
--bowtie1	使用Bowtie1来代替Bowtie2进行比对。当使用colorspace reads时用到，因为只有Bowtie1支持，而Bowtie2不支持。默认为bowtie2
-o/--output-dir <string>	输出的文件夹路径。默认为"./tophat_out".
-r/--mate-inner-dist <int>	成对的reads之间的平均inner距离。例如：fragments长度300bp，两端长度50bp，则其inner距离为200bp，该值该设为200。默认值：50bp
--mate-std-dev <int>	inner距离的标准偏差。默认值：20bp
-a/--min-anchor-length <int>	read的anchor长度：该参数能设定的最小值为3；锚定在junction两边的reads长度只有都大于此值，才能用于junction的验证。默认值：8
-m/--splice-mismatches <int>	对于一个剪切比对，其在anchor区能出现的最大的不匹配碱基数。默认值：0
-i/--min-intron-length <int>	最小的内含子长度。Tophat会忽略比该长度要小的donor/acceptor pairs，认为该区属于外显子。默认是70.
-I/--max-intron-length <int>	最大的内含子长度。Tophat会忽略长度大于该值的donor/acceptor pairs，除非有long read支持。默认值是500000.
--max-insertion-length <int>	最大的插入长度。默认值是3.
--max-deletion-length <int>	最大缺失长度，默认值是3.
--solexa-quals	对fastq文件使用Solexa的碱基质量格式
--solexa1.3-quals	使用Illumina GA pipeline version 1.3的碱基质量格式，即Phred64.
-Q/--quals	使用单独的碱基质量文件
--integer-quals	有空格隔开的整数值来代表碱基质量。当使用 -C 参数时，该参数为默认参数。
-C/--color	Colorspace reads, 注意使用一个 colorspace bowtie 索引而且需要Bowtie 0.12.6 及以上. 通常用法: tophat --color --quals [other options]* <colorspace_index_base> <reads1_1[,...,readsN_1]> [reads1_2,...readsN_2] <quals1_1[,...,qualsN_1]> [quals1_2,...qualsN_2]
-p/--num-threads <int>	比对时使用的线程数，默认是1.
-g/--max-multihits <int>	对于一个reads，可能会有多个比对结果，但tophat根据比对给分，最多保留的比对结果数目。如果没有--report-secondary-alignments 参数，则只会报告出最佳的比对结果。若最佳比对结果数目超过该参数值，则只随机报告出该数目的最佳比对结果；若有 -- report-secondary-alignments 参数，则按得分顺序报告出比对结果，直至达到默认的数目为止。
--report-secondary-alignments	默认情况下，TopHat根据比对分数（AS）报告最佳或主要比对结果。如果要输出其他或次要比对结果（这种方法最多报告20个比对，此限制可以通过使用上面的-g / - max-multihits选项更改）请使用此选项。
--no-discordant	对于paired reads，仅仅报告concordant mappings。
--no-mixed	对于paired reads，只报告concordant mappings 和 discordant mappings。默认上，是所有的比对结果都报告。
--no-coverage-search	取消以coverage为基础来搜寻junctions，和下一个参数互斥，该参数为默认参数。
--coverage-search	确定以覆盖度为基础来搜寻junctions。以获得最大灵敏度
--microexon-search	使用该参数，pipeline会尝试寻找micro-exons。仅仅在reads长度>=50bp时有效。
--library-type	Tophat处理的reads具有链特异性。比对结果中将会有个XS标签。一般Illumina数据的library-type为 fr-unstranded。