串行的blast+2.2.25本地化系列: blastdbcmd,makeblastdb,blastn.使用简介
-----------------------------------------------------------------------
blast+中有许多命令.
blastdbcmd,makeblastdb是处理数据库较为常用的命令
blastn是核苷酸与核苷酸比对的命令.
以下结果来自 blast+ 2.2.25,
运行平台是 ubuntu 10.04
GCC 4.4.3
------------------------------------------------------------------------
1 blastdbcmd
- 作用: Retrieves sequences or other information from a BLAST database
它相当于以前的fastacmd.利用这个命令,可以从一个blast数据库中获得你想要的信息:
一般的使用如:
- 例子0:
可以查看数据库refseq_rna的信息
例子1:
可以从数据库中提取除gi号为224071016的序列,并且以fasta格式存入文件(当然也可以以其它格式获得序列)
- 注:
gi ID是许多用来标志序列的标识符中的一种.是数据库文件中普遍使用,通行有效的保持索引的形式.
所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”.是绝对唯一的.
而自己利用makeblastdb命令 构建的数据库中,利用以下三种标识符
- gnl|database|identifier
- lcl|identifier
- identifier
这些标识符的作用是
- 区别于gi号
- 在本数据库中使得序列标识符唯一
- 在查询和比对中分辨query序列与subject序列
- 更加详细的参数参照 blastdbcmd -help
------------------------------------------------------------------------------------------
2 makeblastdb
- 作用: Formats input FASTA file(s) into a BLAST database
顾名思义,它的作用是将各种格式的文件转换为一个可供blast算法使用的blast数据库
- 一般的使用如:
-in 后接输入文件,你要格式化的序列
-dbtype 后接序列类型,nucl为核酸,prot为蛋白
-title 给数据库的别名
-input_type 给出输入文件的序列格式.
-parse_seqids 将序列分列
-out 后接数据库名,自己起一个有意义的名字,以后blast+搜索时要用到的-db的参数
-logfile 日志文件,如果没有默认输出到屏幕
- 更加详细的参数参照 makeblastdb -help
----------------------------------------------------------