目录/Table of Content
大家好,我是一个喜欢研究算法、机械学习和生物计算的小青年,我的CSDN博客是:一骑代码走天涯
如果您喜欢我的笔记,那么请点一下关注、点赞和收藏。如果內容有錯或者有改进的空间,也可以在评论让我知道。😄
在这里使用了 BLAST+ (v2.10.1)
1. 安裝基因数据库 (本地版)
假设工作目录已经有了所有的FASTA 文件。
在工作目录建立 nt 文件夾,以储存 nt 数据库资料:
mkdir nt
cd nt
下载 nt 数据库:
update_blastdb.pl --decompress nt
[在] 如有需要可以把数据库变成 fasta 格式:(时间颇长)
blastdbcmd -entry all -db nt -out nt.fsa
2. blastn
对每个FASTA文件进行搜索
这里,我们只显示每条核酸序列的最大可能的物种名称 stitle (subject title)
。举个栗子,在这里尝试设定:
-num_threads 6 (用6个线程计算)
-query test.fasta (输入的FASTA文件名称)
-out test_blastn.txt (Blastn之后的输出文件名称)
-outfmt “6 stitle” (用第6
款 (Tabluar) 输出格式; 增加表格栏stitle
(对应物种名称) )
-db nt/nt (选择本地nt数据库,就是刚下载的那个)
-dust no (不启用 DUST来过滤序列)
-max_target_seqs 1 (每个搜索最多返回 1个 结果)
-perc_identity 90 (至少要 90% 配对率)
-evalue 0.0001 (E-value 至少 0.0001)
-min_raw_gapped_score 105 (设定 105 为 Minimum raw gapped score)
blastn -num_threads 6 -query test.fasta -out test_blastn.txt -outfmt "6 stitle" -db nt/nt -dust no -max_target_seqs 1 -perc_identity 90 -evalue 0.0001 -min_raw_gapped_score 105
关于怎麽设定表格栏options,可以参考以下表格:
Option | Description |
---|---|
qseqid | query (e.g., unknown gene) sequence id |
sseqid | subject (e.g., reference genome) sequence id |
pident | percentage of identical matches |
length | alignment length (sequence overlap) |
mismatch | number of mismatches |
gapopen | number of gap openings |
qstart | start of alignment in query |
qend | end of alignment in query |
sstart | start of alignment in subject |
send | end of alignment in subject |
evalue | expect value |
bitscore | bit score |
Reference/参考资料:
http://www.metagenomics.wiki/tools/blast/blastn-output-format-6
https://www.ncbi.nlm.nih.gov/books/NBK537770/