【Bash】用本地 NCBI Blast 寻找FASTA的物种分类

最新推荐文章于 2022-03-15 20:46:31 发布

一骑代码走天涯

最新推荐文章于 2022-03-15 20:46:31 发布

阅读量1.6k

点赞数 1

分类专栏：生物信息工具文章标签： bash 生物信息学 blast

本文链接：https://blog.csdn.net/m0_48922254/article/details/109819135

版权

生物信息工具专栏收录该内容

2 篇文章 0 订阅

订阅专栏

目录/Table of Content

大家好，我是一个喜欢研究算法、机械学习和生物计算的小青年，我的CSDN博客是：一骑代码走天涯
如果您喜欢我的笔记，那么请点一下关注、点赞和收藏。如果內容有錯或者有改进的空间，也可以在评论让我知道。😄

在这里使用了 BLAST+ (v2.10.1)

1. 安裝基因数据库 (本地版)

假设工作目录已经有了所有的FASTA 文件。

在工作目录建立 nt 文件夾，以储存 nt 数据库资料：

mkdir nt
cd nt

下载 nt 数据库：

update_blastdb.pl --decompress nt

[在] 如有需要可以把数据库变成 fasta 格式：(时间颇长)

blastdbcmd -entry all -db nt -out nt.fsa

2. `blastn` 对每个FASTA文件进行搜索

这里，我们只显示每条核酸序列的最大可能的物种名称 stitle (subject title)。举个栗子，在这里尝试设定：
-num_threads 6 (用6个线程计算)
-query test.fasta (输入的FASTA文件名称)
-out test_blastn.txt (Blastn之后的输出文件名称)
-outfmt “6 stitle” (用第6款 (Tabluar) 输出格式; 增加表格栏stitle (对应物种名称) )
-db nt/nt (选择本地nt数据库，就是刚下载的那个)
-dust no (不启用 DUST来过滤序列)
-max_target_seqs 1 (每个搜索最多返回 1个结果)
-perc_identity 90 (至少要 90% 配对率)
-evalue 0.0001 (E-value 至少 0.0001)
-min_raw_gapped_score 105 (设定 105 为 Minimum raw gapped score)

blastn -num_threads 6 -query test.fasta -out test_blastn.txt -outfmt "6 stitle" -db nt/nt -dust no -max_target_seqs 1 -perc_identity 90 -evalue 0.0001 -min_raw_gapped_score 105

关于怎麽设定表格栏options，可以参考以下表格：

Option	Description
qseqid	query (e.g., unknown gene) sequence id
sseqid	subject (e.g., reference genome) sequence id
pident	percentage of identical matches
length	alignment length (sequence overlap)
mismatch	number of mismatches
gapopen	number of gap openings
qstart	start of alignment in query
qend	end of alignment in query
sstart	start of alignment in subject
send	end of alignment in subject
evalue	expect value
bitscore	bit score

Reference/参考资料:

http://www.metagenomics.wiki/tools/blast/blastn-output-format-6
https://www.ncbi.nlm.nih.gov/books/NBK537770/

一骑代码走天涯

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【Bash】用本地 NCBI Blast 寻找FASTA的物种分类

update_blastdb.pl --decompress nt./ncbi-blast-2.10.1+/bin/blastdbcmd -entry all -db nt -out nt.fsacd //BLAST+/prog=//BLAST+/ncbi-blast-2.10.1+/bin#BLAST+ (blastn, v2.10.1)for fasta in ./tobe_blast_dir/*;do BNAME=$(basename $fasta); QUERY=${BN
复制链接

扫一扫