需要下载NCBI的nt数据库
一开始使用NCBI脚本update_blastdb.pl
进行下载
update_blastdb.pl --decompress nt
发现很难下载下来,数据库文件很大,网络不好很容易中断,尝试了几天也没有下载下来。
查找其他解决方法,发现可以使用aspera下载这些大型数据库
安装aspera
首先进入aspera官方网站,找到「IBM Aspera Connect」,进入下载页面,找到对应的版本与平台,这里以Linux平台最新的3.10.0版本为例进行介绍。
# 下载
wget https://ak-delivery04-mul.dhe.ibm.com/sar/CMA/OSA/092u0/0/ibm-aspera-connect-3.10.0.180973-linux-g2.12-64.tar.gz
# 解压
tar xvf ibm-aspera-connect-3.10.0.180973-linux-g2.12-64.tar.gz
# 解压后得到一个脚本文件,运行该脚本,即可完成自动安装
bash ibm-aspera-connect-3.10.0.180973-linux-g2.12-64.sh
# 所有安装文件都在~/.aspera/connect目录下,添加环境变量
echo 'export PATH=~/.aspera/connect/bin/:$PATH' >> ~/.bashrc
# 使环境变量生效
source ~/.bashrc
# 查看ascp可执行文件所在的路径,应该是:~/.aspera/connect/bin/ascp
which ascp
# 看程序是否能正常运行
ascp -h
安装过程中发生报错
错误1:/lib64/libc.so.6: version 'GLIBC_2.28' not found
解决方法见Centos lib64 libc.so.6 version ‘GLIBC_2.28’ not found.
错误2:/path/to/.aspera/connect/bin/asperaconnect-nmh: /lib64/libstdc++.so.6: version 'GLIBCXX_3.4.21' not found
解决方法见lib64 libstdc++.so.6 version GLIBCXX_3.4.21’ not found CXXABI_1.3.8
安装完成后需要确认私钥文件存在,如果没有私钥文件不能正常运行
###私钥文件目录通常为
~/.aspera/connect/etc/asperaweb_id_dsa.openssh
###如果该目录不存在,则通过which ascp,找到.aspera所在路径后,进入该目录下的/connect/etc查看是否有asperaweb_id_dsa.openssh
如果下载最新版本aspera安装好后,私钥文件没有正常存在,建议就下载示例中的3.10.0版本
使用aspera下载nt库
###进入计划存放nt库的目录,运行以下命令
ascp -v -k 1 -T -l 400m -i /path/to/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./
「主要参数」
-i 免密从NCBI或EBI下载的私钥,安装完成就有,位于
~/.aspera/connect/etc/asperaweb_id_dsa.openssh
-l 最大下载速度,如100M
-k 断点续传,通常设为1
-T 无需加密传输
–host 服务器域名,NCBI为http://ftp.ncbi.nlm.nih.gov,EBI下载千人基因组为http://fasp.1000genomes.ebi.ac.uk
-P 用于SSH认证的TCP商品,一般是33001
–user 用户名,NCBI为anonftp,EBI下载千人基因组为g1k
–mode 传输模式,上传为send,下载为recv
ref:
Aspera官网:https://www.ibm.com/products/aspera/downloads?list
Aspera使用说明1:https://www.ibm.com/support/pages/downloading-data-ncbi-command-line#usage
Aspera使用说明2:https://www.internationalgenome.org