SRA数据下载的一个坑

前两天协助处理GEO数据上的一个单细胞数据,发现了一个巨坑,这里分享下,希望大家能避开。

需要下载的数据集是,GSE119562,查询SRA Run Selector,找到它对应的SRR编号。

于是,我非常熟练的用prefetch下载数据。

prefetch -O . SRR7791895

接着用fasterp-dump转换格式

fasterp-dump -3 -O . SRR7791895

但是,很奇怪,结果只有一个文件!但是单细胞测序起码要有两个文件,一个记录UMI+Barcode,另一个是转录本序列,显然哪里出现了问题。

我又看了看前面的输出信息,发现输出日志里有dependency相关的信息。这让我想起了之前SRA数据下载的问题,就是当上传为BAM文件的时候,才会出现这个情况。

也就是说,原作者上传的一共是BAM文件,而这个SRA文件显然经过了有损压缩了!那我们如何获取原来的数据呢?

我们点击SRA RUn Selector中Run列中的样本,如SRR7791895,就会跳转到https://trace.ncbi.nlm.nih.gov/Traces/index.html?run=SRR7791895。在其中的Data access中,就有一个Original format,里面存放的就是原作者上传到NCBI的数据。里面Access Type为anoymous的对应的链接就是下载链接。

然而并不是所有的原始数据都能能公开下载的,很大一部分都需要用到NCBI的Cloud Data Delivery,参考如何下载SRA存放在AWS的原始数据

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值