我们下载测序数据一般使用sra-tools的prefetch功能,通过SRR号从NCBI的SRA数据库下载SRA文件,这个方法下载速度有所限制且需要将SRA再转化为FASTQ文件,这过程中又会消耗不少时间和算力。 一种替代方法是使用Aspera软件,从EBI(European Bioinformatics Institute)的ENA(European Nucleotide Archive)数据库直接下载FASTQ格式文件,免去了转化格式的步骤,且下载速度有了质的提升。
Aspera下载
首先请出我们的老演员 docker
https://hub.docker.com/r/ibmcom/aspera-cli/tags
docker pull ibmcom/aspera-cli:latest
下载完成
docker run ibmcom/aspera-cli:latest
/home/aspera/cli.run: line 206: ACLI_SUBCOMMAND: aspera-cli: ACLI_SUBCOMMAND required
好像run不起来,暂时不知道怎么解决
那就还是用conda吧
conda install -c hcc aspera-cli -y
#或者
#conda install bioconda::aspera-cli
ascp -h
查看是否安装成功
which ascp
查找密匙*十分关键!
which ascp # 输出下面内容,不同环境不一样,根据自己的来
~/software/miniconda3/envs/test/bin/ascp
ls ~/software/miniconda3/envs/test/etc/asperaweb_id_dsa.openssh
把bin及bin后面的内容换成etc/asperaweb_id_dsa.openssh
可以用ls验证一下是否存在
一个例子
ascp -l 100M -P 33001 -QT -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR125/000/SRR12529100/SRR12529100_1.fastq.gz .
怎么获取下载链接
上EMBL-EBI EMBL-EBI homepage | EMBL-EBI
把这个fastq _aspera选上获取下载链接
选择tsv下载即可
表格既是下载链接和SRA号
接下来要处理一下,达到例子一样的格式
ascp -l 100M -P 33001 -QT -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR682/006/SRR6829426/SRR6829426.fastq.gz .
ascp -l 100M -P 33001 -QT -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR682/007/SRR6829427/SRR6829427.fastq.gz .
ascp -l 100M -P 33001 -QT -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR682/008/SRR6829428/SRR6829428.fastq.gz .
ascp -l 100M -P 33001 -QT -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR682/009/SRR6829429/SRR6829429.fastq.gz .
ascp -l 100M -P 33001 -QT -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR682/000/SRR6829430/SRR6829430.fastq.gz .
ascp -l 100M -P 33001 -QT -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR682/001/SRR6829431/SRR6829431.fastq.gz .
批量的改成这样
vim PRJNA437872.sh
nohup bash PRJNA437872.sh
后台运行就可以啦!