【Bash】用本地 NCBI Blast 寻找FASTA的物种分类

大家好,我是一个喜欢研究算法、机械学习和生物计算的小青年,我的CSDN博客是:一骑代码走天涯
如果您喜欢我的笔记,那么请点一下关注、点赞和收藏。如果內容有錯或者有改进的空间,也可以在评论让我知道。😄

在这里使用了 BLAST+ (v2.10.1)


1. 安裝基因数据库 (本地版)

假设工作目录已经有了所有的FASTA 文件。

在工作目录建立 nt 文件夾,以储存 nt 数据库资料:

mkdir nt
cd nt

下载 nt 数据库:

update_blastdb.pl --decompress nt

[在] 如有需要可以把数据库变成 fasta 格式:(时间颇长)

blastdbcmd -entry all -db nt -out nt.fsa

2. blastn 对每个FASTA文件进行搜索

这里,我们只显示每条核酸序列的最大可能的物种名称 stitle (subject title)。举个栗子,在这里尝试设定:
-num_threads 6 (用6个线程计算)
-query test.fasta (输入的FASTA文件名称)
-out test_blastn.txt (Blastn之后的输出文件名称)
-outfmt “6 stitle” (用第6(Tabluar) 输出格式; 增加表格栏stitle (对应物种名称) )
-db nt/nt (选择本地nt数据库,就是刚下载的那个​)
-dust no (不启用 DUST来过滤序列)
-max_target_seqs 1 (每个搜索最多返回 1个 结果)
-perc_identity 90 (至少要 90% 配对率)
-evalue 0.0001 (E-value 至少 0.0001)
-min_raw_gapped_score 105 (设定 105 为 Minimum raw gapped score)

blastn -num_threads 6 -query test.fasta -out test_blastn.txt -outfmt "6 stitle" -db nt/nt -dust no -max_target_seqs 1 -perc_identity 90 -evalue 0.0001 -min_raw_gapped_score 105

关于怎麽设定表格栏options,可以参考以下表格

OptionDescription
qseqidquery (e.g., unknown gene) sequence id
sseqidsubject (e.g., reference genome) sequence id
pidentpercentage of identical matches
lengthalignment length (sequence overlap)
mismatchnumber of mismatches
gapopennumber of gap openings
qstartstart of alignment in query
qendend of alignment in query
sstartstart of alignment in subject
sendend of alignment in subject
evalueexpect value
bitscorebit score

Reference/参考资料:

http://www.metagenomics.wiki/tools/blast/blastn-output-format-6
https://www.ncbi.nlm.nih.gov/books/NBK537770/

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值