linux下载sra数据库,使用fastq-dump从NCBI的SRA数据库下载数据

测序类的论文,一般需要将原始测序reads数据上传到某个公开的数据库,然后在文章末尾标明数据存储位置和登录号。NCBI的SRA (Sequence Read Archive) 数据库(http://www.ncbi.nlm.nih.gov/sra/) 是最常用的存储测序数据的数据库。如何从SRA数据库下载他人公开的数据,以作己用呢?

fastq-dump -X 5 -Z SRR492257

#直接看到DRR047093数据的前5条/对Reads,输出在屏幕

fastq-dump  -O ./data SRR492257

# 将fastq格式的Reads文件下载到./data目录,但是Read 1与Read2并排存储在fastq文件中,对后续分析造成不便。

fastq-dump –split-files -O ./data SRR492257

# 将Reads 1和Reads 2两个文件均下载到./data目录

参考资料:

顺便学习上传数据到SRA:

目前,测序类的论文,一般需要将原始测序reads数据上传到某个公开的数据库,然后在文章末尾标明数据存储位置和登录号。NCBI的SRA (Sequence Read Archive) 数据库(http://www.ncbi.nlm.nih.gov/sra/) 是最常用的存储测序数据的数据库。然而要上传自己的数据到 NCBI SRA 对很多人而言,并不是一件容易的事。

要学会怎么上传数据到NCBI SRA,最直接的方式就是仔细阅读NCBI给的说明文档。这个链接(http://www.ncbi.nlm.nih.gov/books/NBK47529/)的文档给出了详细步骤。仔细阅读,按照上面的步骤,结合具体操作时的网页上各处的说明,一般都可以顺利完成任务。

现实是,许多人遇到的主要困难是:不看说明文档或说明文档看不懂;测序数据相关的一些概念不懂,导致不知道该怎样填表格,比如不明白SE和PE的区别,insert size和read length分别是什么意思,MD5的意思,以及怎样获得一个文件的MD5值。

一般上传数据到NCBI SRA的过程需要6步:

Create a BioProject for this research

Create a BioSample submission for your biological sample(s)

Gather Sequence Data Files

Enter Metadata on SRA website

Create SRA submission

Create Experiment(s) and link to BioProject and BioSample

Create Run(s)

Transfer Data files to SRA

Update Submission with PubMed links, Release Date, or Metadata Changes

需要注意的一点是,上传的过程中很多地方一旦保存或提交就不可以修改,尤其是各处的Alias。但是,可以联系NCBI的工作人员修改内容。NCBI的工作效率是很高的,一般不超过48小时,就可以得到确认,并拿到登录号。

赞过:

赞 正在加载……

493eda420ced32d95a5362678c212e10?s=80&d=identicon&r=G

Bioinformatics

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值