推荐两个软件ascp和prefetch
ASCP
1.下载并安装:
wget http://download.asperasoft.com/download/sw/connect/3.7.2/aspera-connect-3.7.2.141527-linux-64.sh
sh aspera-connect-3.7.2.141527-linux-64.sh
把一些输入文件放到主目录:
cp ~/.aspera/connect/etc/asperaweb_id_dsa.putty ~/
cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
并将程序链接到环境变量里:
ln -sf /home/zqyang/.aspera/connect/bin/* ~/bin/
2.使用匿名账号直接下载数据:
ascp -k 1 -l 100M -i ~/asperaweb_id_dsa.openssh -T anonftp@ftp.ncbi.nlm.nih.gov:sra/sra-instant/reads/ByStudy/sra/SRP/SRP040/SRP040251/SRR1197490/SRR1197490.sra .
3.批量下载:
将数据整理成一个文件file_list.txt 中,文件内容例如:
sra/sra-instant/reads/ByStudy/sra/SRP/SRP040/SRP040251/SRR1197490/SRR1197490.sra
sra/sra-instant/reads/ByStudy/sra/SRP/SRP040/SRP040251/SRR1197491/SRR1197491.sra
sra/sra-instant/reads/ByStudy/sra/SRP/SRP040/SRP040251/SRR1197492/SRR1197492.sra
(每行一个路径)
nohup ascp -i ~/asperaweb_id_dsa.openssh --mode recv --host ftp.ncbi.nlm.nih.gov --user anonftp --file-list file_list.txt ./ &
4.SRA文件如何找到链接:
去该网址下面找到SRR文件:
https://www.ncbi.nlm.nih.gov/public/
prefetch
这个比较简单:
prefetch SRR1197490
注意文件如果较大,使用-X 调整允许最大文件,如
prefetch -X 100G SRR1197490
文件会自动下载到~/ncbi/public/sra/SRR1197490.sra,然后使用fastq-dump就可以转化成fastq格式
fastq-dump -F --split-3 --gzip SRR1197490.sra