如何根据NCBI中的PRJ、SRA、SRP、SRX、SRR编号下载数据

1)概念说明

PRJNA、PRJEB 或 PRJDB 开头的编号用来表示一个完整的生物项目或研究计划,是最高级别标志符;

SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。

每个PRJ下面有多个SRA

2)编号分类

根据SRA数据产生的特点,将SRA数据分为四类:SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs

SRA数据库用不同的前缀加以区分:

ERP或SRP表示Studies,研究课题;

SRS 表示 Samples,样品信息;

SRX 表示 Experiments,实验设计;

SRR 表示 Runs,表示测序仪运行所产生的reads

3)下载SRA数据

要下载SRA数据,我们需要先安装SRA Toolkit软件包,下载地址:

下载安装:

wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"
tar xzf sratoolkit.current-centos_linux64.tar.gz

运行下载

cd sratoolkit.2.5.7-centos_linux64/bin
./prefetch

下载示例:

./prefetch SRR2172038

4)批量下载SRA数据

如果批量下载数据,则生成一个SRR_Acc_List.txt,每个SRR编号为一行:

prefetch --option-file SRR_Acc_List.txt

SRR_Acc_List.txt在NCBI中的获取方式:

NCBI---SRA检索 SRP编号——右上角点击 Seed To  —选择File----选择Accession List 将所有的SRR编号导出用于批量下载

每个SRP、SRX、SRR、样本编号、测序数据等信息的获取方式:

NCBI---SRA检索 SRP编号——右上角点击 Seed To  —选择File----选择RunInfo 将详细的信息导出

5)查看SRA数据

以SRR2172038.sra数据为例

转换fastq

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump --split-3  —gzip ./SRR2172038.sra

转换fasta

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump  --fasta ./SRR2172038.sra

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值