linux系统中进行下载基因组数据,需要安装sratoolkit.3.0.7-ubuntu64版本的
linux系统安装及使用查看下面网址https://zhuanlan.zhihu.com/p/640799325?utm_id=0
安装之后转到NCBI网页搜索需要的数据或者到SRA数据中查找,我下载的是SRA数据库中的SRR25474921(SRA中是原始测序数据)
linux系统下载数据及SRA的使用
prefetch SRR25474921 #下载单个SRA文件,默认下载sra数据格式放在当前目录下
prefetch --option-file SRR_Acc_List.txt #下载多个SRA文件
fastq-dump --gzip --split-3 SRR25474921.sra,#使用fastq-dump将sra转换为fastq格式,--split-3 参数可以把双端测序的reads提取出来,左端标示为*_1.fastq;右端标示为*_2.fastq。产生两个文件。
fastq-dump下载的数据直接为fastq格式,不过sra格式占用空间较小,下载速度快
文件拆分。注:当不确定到底是单端还是双端的SRA文件,一律用--split-3。