如何根据NCBI中的PRJ、SRA、SRP、SRX、SRR编号下载数据

李毛线的博客

已于 2025-01-08 17:59:44 修改

阅读量1.4k

点赞数 5

文章标签：数据库

于 2025-01-08 17:55:31 首次发布

本文链接：https://blog.csdn.net/qq_40815731/article/details/145014266

版权

1）概念说明

PRJNA、PRJEB 或 PRJDB 开头的编号用来表示一个完整的生物项目或研究计划，是最高级别标志符；

SRA（Sequence ReadArchive）数据库是用于存储二代测序的原始数据，包括 454，Illumina，SOLiD，IonTorrent，Helicos 和 CompleteGenomics。除了原始序列数据外，SRA现在也存在raw reads在参考基因的比对信息。

每个PRJ下面有多个SRA

根据SRA数据产生的特点，将SRA数据分为四类：SRA中数据结构的层次关系为：Studies->Experiments->Samples->Runs

SRA数据库用不同的前缀加以区分：

ERP或SRP表示Studies，研究课题；

SRS 表示 Samples，样品信息；

SRX 表示 Experiments，实验设计；

SRR 表示 Runs，表示测序仪运行所产生的reads

要下载SRA数据，我们需要先安装SRA Toolkit软件包，下载地址：

下载安装：

wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"
tar xzf sratoolkit.current-centos_linux64.tar.gz

运行下载

cd sratoolkit.2.5.7-centos_linux64/bin
./prefetch

下载示例：

./prefetch SRR2172038

如果批量下载数据，则生成一个SRR_Acc_List.txt，每个SRR编号为一行：

prefetch --option-file SRR_Acc_List.txt

SRR_Acc_List.txt在NCBI中的获取方式：

NCBI---SRA检索 SRP编号——右上角点击 Seed To —选择File----选择Accession List 将所有的SRR编号导出用于批量下载

每个SRP、SRX、SRR、样本编号、测序数据等信息的获取方式：

NCBI---SRA检索 SRP编号——右上角点击 Seed To —选择File----选择RunInfo 将详细的信息导出

以SRR2172038.sra数据为例

转换fastq

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump --split-3  —gzip ./SRR2172038.sra

转换fasta

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump  --fasta ./SRR2172038.sra