基因测序进行大量数据blast,为了节省时间,可以构建本地nt库,避免再到网页一步步检索。
1、下载nt库
#查看可下载的NCBI资源库
update_blastdb.pl --showall
#自动下载所需nt库(如用Perl工具,即:perl update_blastdb.pl nt)
update_blastdb.pl nt
#Aspera下载(速度快)
ascp -l -k 1 -T -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./
2、校验检查包是否缺损
#统计数据压缩包
md5sum nt.00.tar.gz
#查看校验包
cat nt.00.tar.gz.md5
3、校验后,进行合并和解压
#文件合并
cat nt.*.tar.gz > nt.tar.gz
#解压
tar -zxvf nt.tar.gz
4、构建索引
makeblastdb -in nt -dbtype nucl -parse_seqids -out ntout
5、利用nt库进行blast
blastn -query query.fna -db ntout -out blastn.out -outfmt 0 -num_threads 40 -evalue 1e-5
备注:本文自动下载使用blast工具,下载方法。
#下载blast软件包选择2.7.1版本
wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.12.0+-x64-linux.tar.gz
#解压到当前blast文件夹
tar –zxvf ncbi-blast-2.12.0+-x64-linux.tar.gz –C /datd/appseq/blast/
#将软件配置环境变量
echo "PATH=$PATH:/data/appseq/blast/ncbi-blast-2.12.0+/bin" >> ~/.bashrc
#刷新环境变量
source ~/.bashrc
#检查软件安装
which blastn
blastn -version