一些SRA文件使用prefetch的时候,会下载多个文件,例如SRR11579188
$ ls
CM000663.2 CM000666.2 CM000669.2 CM000672.2 CM000675.2 CM000678.2 CM000681.2 CM000684.2 J01415.2
CM000664.2 CM000667.2 CM000670.2 CM000673.2 CM000676.2 CM000679.2 CM000682.2 CM000685.2 SRR11579188.sra
CM000665.2 CM000668.2 CM000671.2 CM000674.2 CM000677.2 CM000680.2 CM000683.2 CM000686.2 SRR11579188.sra.vdbcache
你会发现除了一个SRR11579188.sra外,还会多出其他的文件,例如CM000663.2(人类的一号染色体)
经过我的研究,推测这是因为作者上传的实际不是FASTQ文件,而是BAM文件。我们可以在 https://trace.ncbi.nlm.nih.gov/Traces/?view=run_browser&acc={SRR编号}&display=data-access 中看到它的Original Format,你会发现,他是一个BAM。

这也非常合理,因为上传BAM文件时,你需要添加对应的参考基因组。那么问题来了,这种文件怎么提取呢?
其实,最简单的方式就是使用faster-dump
fasterq-dump -3 ./SRR11579188 -O .
如果是双端测序,会输出 SRR11579188_1.fastq和SRR11579188_2.fastq。
还有一种是 sam-dump,导出sam文件。我们之后转成bam格式, 因为本身就排序了,所以你可以直接做一些分析
sam-dump ./SRR11579188 | samtools view -b > SRR11579188.bam
注意,虽然sam-dump选项中有一个--fastq/--fasta,但只能输出一个文件。对于PE数据,你还是需要用到samtools的fastq子命令,但是又不能直接用下面这个命令
sam-dump sra/SRR11579188 | samtools fastq -1 SRR11579188_1.fq -2 SRR11579188_2.fq
这是因为这个sam是按照坐标排序的,你需要按照如下操作。但实际上,可能还是不能用,因为每条read name已经简化成数字了。
samtools sort -n SRR11579188.sam > SRR11579188_sort_by_name.bam
samtools fastq -1 SRR11579188_1.fq -2 SRR11579188_2.fq SRR11579188_sort_by_name.bam
8万+

被折叠的 条评论
为什么被折叠?



