1)概念说明
PRJNA、PRJEB 或 PRJDB 开头的编号用来表示一个完整的生物项目或研究计划,是最高级别标志符;
SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。
每个PRJ下面有多个SRA
2)编号分类
根据SRA数据产生的特点,将SRA数据分为四类:SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs
SRA数据库用不同的前缀加以区分:
ERP或SRP表示Studies,研究课题;
SRS 表示 Samples,样品信息;
SRX 表示 Experiments,实验设计;
SRR 表示 Runs,表示测序仪运行所产生的reads
3)下载SRA数据
要下载SRA数据,我们需要先安装SRA Toolkit软件包,下载地址:
下载安装:
wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"
tar xzf sratoolkit.current-centos_linux64.tar.gz
运行下载
cd sratoolkit.2.5.7-centos_linux64/bin
./prefetch
下载示例:
./prefetch SRR2172038
4)批量下载SRA数据
如果批量下载数据,则生成一个SRR_Acc_List.txt,每个SRR编号为一行:
prefetch --option-file SRR_Acc_List.txt
SRR_Acc_List.txt在NCBI中的获取方式:
NCBI---SRA检索 SRP编号——右上角点击 Seed To —选择File----选择Accession List 将所有的SRR编号导出用于批量下载
每个SRP、SRX、SRR、样本编号、测序数据等信息的获取方式:
NCBI---SRA检索 SRP编号——右上角点击 Seed To —选择File----选择RunInfo 将详细的信息导出
5)查看SRA数据
以SRR2172038.sra数据为例
转换fastq
/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump --split-3 —gzip ./SRR2172038.sra
转换fasta
/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump --fasta ./SRR2172038.sra