TopHat比对RNA-Seq数据

TopHat用于转录组测序数据的比对,它建立在Bowtie上,目前已经不再更新。TopHat目前的版本为v2.1.1,运行环境为python2,conda安装时要建立python2的环境,再通过conda install TopHat 安装。

Usage: tophat [options]* <genome_index_base> <reads1_1[,...,readsN_1]> [reads1_2,...readsN_2] 

1. 比对单端测序数据

# 默认参数
tophat test_genome test_read.fq

#指定参数
tophat –p 20 –o output –G genome.gtf genome test_read.fq

参数说明:

-p 为安排运行tophat所需要的CPU线程数,根据服务器端的CPU总线程数来决定。

-o 为文件输出路径,一般建议每个样单独建立一个文件夹。

-G 后面跟着相应参考基因组的注释文件,在运行时会首先被tophat2调用bowtie2建立index,这个过程会占用一定的时间。

genome,样品物种的基因组index,可用bowtie2-build对物种的genome.fa文件进行建库,命令为:bowtie2-build genome.fa genome ,此命令建立index也需要花费较长的时间。

2. 比对双端测序数据

tophat –p 20 –o output –G genome.gtf genome test_reads_1.fq test_reads_2.fq

注:Starting with version 2.0.10 TopHat accepts mixed input file formats (FASTA/FASTQ)

3. 混合使用测序数据

Usage: tophat [options]* <genome_index_base> <reads1_1[,...,readsN_1]> [reads1_2,...readsN_2]

‐ or ‐ 

tophat [options]* <genome_index_base> PE_reads_1.fq.gz,SE_reads.fa PE_reads_2.fq.gz 
‐ or ‐ 
tophat [options]* <genome_index_base> PE_reads_1.fq.gz PE_reads_2.fq.gz,SE_reads.fa

4. 提前建好GTF文件的index,减少运行时间

# 建立注释文件index
tophat –G genome.gtf --transcriptome-index=transcriptome_data/genome.gtf.index  genome
# 使用注释文件index。不需要-G选项
tophat –p 20 –o output --transcriptome-index=transcriptome_data/genome.gtf.index  genome reads_1.fa reads_2.fa

注:conda 安装的TopHat v2.1.1, 使用时加-p,-G等参数,报错。

Error: Could not find Bowtie 2 index files (–G.*.bt2l)

参考

TopHat

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值