为什么有些时候prefetch下载不只一个sra文件

一些SRA文件使用prefetch的时候,会下载多个文件,例如SRR11579188

$ ls
CM000663.2  CM000666.2  CM000669.2  CM000672.2  CM000675.2  CM000678.2  CM000681.2  CM000684.2  J01415.2
CM000664.2  CM000667.2  CM000670.2  CM000673.2  CM000676.2  CM000679.2  CM000682.2  CM000685.2  SRR11579188.sra
CM000665.2  CM000668.2  CM000671.2  CM000674.2  CM000677.2  CM000680.2  CM000683.2  CM000686.2  SRR11579188.sra.vdbcache

你会发现除了一个SRR11579188.sra外,还会多出其他的文件,例如CM000663.2(人类的一号染色体)

经过我的研究,推测这是因为作者上传的实际不是FASTQ文件,而是BAM文件。我们可以在 https://trace.ncbi.nlm.nih.gov/Traces/?view=run_browser&acc={SRR编号}&display=data-access 中看到它的Original Format,你会发现,他是一个BAM。
SRR11579188

这也非常合理,因为上传BAM文件时,你需要添加对应的参考基因组。那么问题来了,这种文件怎么提取呢?

其实,最简单的方式就是使用faster-dump

fasterq-dump -3  ./SRR11579188  -O .

如果是双端测序,会输出 SRR11579188_1.fastqSRR11579188_2.fastq

还有一种是 sam-dump,导出sam文件。我们之后转成bam格式, 因为本身就排序了,所以你可以直接做一些分析

sam-dump ./SRR11579188 | samtools view -b > SRR11579188.bam

注意,虽然sam-dump选项中有一个--fastq/--fasta,但只能输出一个文件。对于PE数据,你还是需要用到samtools的fastq子命令,但是又不能直接用下面这个命令

sam-dump sra/SRR11579188  | samtools fastq -1 SRR11579188_1.fq -2 SRR11579188_2.fq

这是因为这个sam是按照坐标排序的,你需要按照如下操作。但实际上,可能还是不能用,因为每条read name已经简化成数字了。

samtools sort -n  SRR11579188.sam  >  SRR11579188_sort_by_name.bam
samtools fastq -1 SRR11579188_1.fq  -2 SRR11579188_2.fq  SRR11579188_sort_by_name.bam
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值