文章目录
BLAST+程序下载与安装
- BLAST+安装包下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
- 根据自己的系统选择不同的安装包,若是windows则直接下载win64.exe版本,按常规软件安装步骤安装即可,但是注意安装时要选择将软件路径加到环境变量中。
- 若是ubuntu系统,可以直接输入 apt-get install ncbi-blast+ ,但这种方法下的不是最新版。
- 若是想要体验最新版,也可以下载最新版安装包进行安装。网上能找到安装教程如link.(注意将Blast+设置到环境变量中,以利于后续使用)。
基因组数据下载
- 首先要找到自己BLAST所要用到的目标基因组,可以在如下链接找到各种分类的物种基因组信息https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/
- 根据其中的分类找到自己需要的,并且下载对应的索引文件,这些在网页上都是能轻松操作的哈。我就是直接下载了prokaryotes.csv的文件,其中包含了ncbi已记录的原核生物的基因组信息。
- 根据下载的索引文件获取基因组下载链接。索引文件中的GenBank FTP或者RefSeq FTP记录了基因组文件的存放位置,对这两列的地址进行处理即可。如Escherichia coli O157:H7 str. Sakai的GenBank FTP为:
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/008/865/GCA_000008865.2_ASM886v2
打开这个链接可知其基因组链接为:ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/008/865/GCA_000008865.2_ASM886v2/GCA_000008865.2_ASM886v2_genomic.fna.gz
可以发现FTP中的最后一项重复一次再加上_genomic.fna.gz即为基因组文件即**.fna**文件的链接,因此使用编程软件获得所有基因组链接便轻而易举。获得下载链接后使用wget批量下载即可。
此处列出本人使用python操作的步骤(本人编程能力很差,多担待):
import pandas as pd # 导入pandas库
import os # 导入os库,python调用linux shell时需要用到