ascp 高速下载NCBI各种数据库中的数据(SRA NR NT 分类数据库)
NR NT 数据库:
#wget -c https://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz
#wget -c https://ftp.ncbi.nlm.nih.gov/genbank/livelists/gi2acc_mapping/gi2acc_lmdb.db.gz
#wget -c https://ftp.ncbi.nlm.nih.gov/genbank/livelists/gi2acc_mapping/gi2accession.py
#wget -c https://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz
#wget -c https://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz
#快速下载方法
/home/huguang/.aspera/connect/bin/ascp -v -k 1 -T -l 400m -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/genbank/livelists/gi2acc_mapping/gi2acc_lmdb.db.gz ./
/home/huguang/.aspera/connect/bin/ascp -v -k 1 -T -l 400m -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/pub/taxonomy/accession2taxid/prot.accession2taxid.gz ./
/home/huguang/.aspera/connect/bin/ascp -v -k 1 -T -l 400m -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.gz ./
sra数据库可以利用ascp ENA网站搜索下载:
ENA主页ENA
搜索SRR号,SRR9169172
命令:
/home/huguang/.aspera/connect/bin/ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR916/002/SRR9169172/SRR9169172.fastq.gz ./
参数说明:
-v verbose mode 唠叨模式,能让你实时知道程序在干啥,方便查错。
-T 取消加密,否则有时候数据下载不了
-i 提供私钥文件的地址,免密从SRA和ENA下载,不能少,地址一般是~/.aspera/connect/etc中的asperaweb_id_dsa.openssh文件
-l 设置最大传输速度,一般200m到500m,如果不设置,反而速度会比较低,可能有个较低的默认值
-k 断点续传,一般设置为值1
-Q 用于自适应流量控制,磁盘限制所需
-P 用于SSH身份验证的TCP端口,一般是33001