一、PSI-Blast在windows10系统下本地安装
1、PSI-blast最新版下载,版本:ncbi-blast-2.6.0+-win64.exe
网址:ftp://ftp.cnbi.nlm.nih.gov/blast/executables/blast+/LATEST/
2、安装流程
2.1 点击.exe直接安装在非系统盘即可,在blast--2.6.0+文件夹下生成bin、doc两个子目录,其中bins是程序目录,doc是文档目录,安装完成。
2.2 环境变量设置。
右键点击“计算机”=》属性=》高级系统设置=》环境变量设置。(1) 在系统变量“path”路径下添加,即“\path\blast\bin”;(2) 在blast-2.6.0+文件夹下新建文件夹“db”,新建"BLASTDB"系统变量,即“\path\blast\db”。
2.3 检测是否安装成功。
在Dos环境下,输入blastn-version命令,如果显示版本信息,即是安装成功。查看命令帮助信息命令:blastn(要查询的命令) -help
3、Blast+数据库建立(来源于:Blast本地化详解总结ncbi-blast-2.2.28+-ia32-win32 并稍加补充)
3.1 数据获取
方法1:直接从 NCBI或者其他数据库网站下载所需序列做成数据库,或者自己已有的测序数据(格式必须是fasta,名字可以自己随便命名,具体做法下面有说明 )。
方法2:从NCBI中的 ftp 库下载所需要的某一个库或几个库,其链接为ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/其中 nr.gz 为非冗余的数据库,nt.gz 为核酸数据库,month.nt.gz 为最近一个月的核酸序列数据。下载的month.nt.gz先用winrar解压缩,然后用makeblastdb.exe格式化。下载到fasta文件放到 db 文件夹下,文件格式是.fasta。
蛋白质数据库详解: NCBI在线blast数据库的简要说明、 Blast本地化:构建自己的搜索数据库 )
方法3:利用新版 blast自带的update_blastdb.pl进行下载,这需要安装perl 程序。
Perl下载:http://pan.baidu.com/s/1i3GLKAp 用update_blastdb.pl下载blast数据库教程
上述三种方法各有优缺点,前两种下载速度较快,但是每次进行检索都需要对数据库进行格式化(转化成二进制数据),第三种方法下载速度较慢,但是是NCBI 中已经格式化好的,在进行本地检索时不需再进行格式化,直接用即可。
3.2本地数据库格式化
将makeblastdb.exe从bin文件夹复制到db文件夹下,db文件夹下数据库是pdbaafasta,测试文件k.fasta,在dos环境下进入db文件输入命令:makeblastdb.exe–in pdbaa.fasta -parse_seqids -hash_index -dbtype prot 命令解释:-in参数后面接将要格式化的数据库,-parse_seqids, -hash_index两个参数一般都带上,主要是为blastdbcmd取子序列时使用,-dbtype 后接所格式化的序列的类型,核酸用 nucl,蛋白质用prot;
3.3 数据库建立完毕。
4. 生成pssm打分矩阵
4.1 在dos环境下进入db文件输入命令:psiblast -db pdbaa.fasta -in_msa k.fasta-num_iterations 3 -evalue 0.001 -out_ascii_pssm pssm2.txt
4.2 使用python或dos命令批量调用4.1代码即可
其他参考文献:Blastp/PSI-BLAST/PHI-BLAST 的详细介绍