antismash介绍
antiSMASH是目前寻找代谢基因簇最好的软件,一般情况下,参与代谢途径中生物合成酶的基因在染色体上成簇排列,基于指定类型的模型,可以准确鉴定所有已知的次级代谢基因簇。antiSMASH依赖的软件有ncbiblast、hmmer、glimmer3、GlimmerHMM和muscle。
antismash安装及使用
安装
1、conda 安装
2、docker安装
3、编译安装
首先利用conda构建专用环境、激活环境、安装依赖包
conda create -n antismash
conda activate antismash
conda install hmmer2 hmmer diamond fasttree prodigal blast muscle glimmerhmm
版本要求:版本过高可能会报错
-
下载antismash安装包、解压缩、安装
wget https://dl.secondarymetabolites.org/releases/7.0.0/antismash-7.0.0.tar.gz
tar -zxf antismash-7.0.0.tar.gz
pip install ./antismash-7.0.0
download-antismash-databases #(下载依赖数据库,一般较慢,个人选择自己下载)
- 自己下载数据库:
cd antismash-7.0.0/antismash/databases
###clusterblast
wget https://dl.secondarymetabolites.org/releases/clusterblast/clusterblast_20190415.tar.xz
###Pfam
mkdir -p pfam/27.0 #进入下载
wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam27.0/Pfam-A.hmm.gz
mkdir -p pfam/31.0 #进入下载
wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam31.0/Pfam-A.hmm.gz
###Resfams.hmm
mkdir -p resfam #进入下载
wget http://dantaslab.wustl.edu/resfams/Resfams.hmm.gz
#下载后使用官方命令进行处理
download-antismash-databases
#加载注释文件:
antismash --prepare-data
提示meme没有安装
conda install meme
#重新加载文件:
antismash --prepare-data
#检测是否安装成功
antismash -h
安装成功!
使用
#1、快速运行(四核计算机运行一个细菌基因组大概2分钟)
antismash *.gbk
#2、最小运行(四核计算机运行一个细菌基因组大概1分钟)
antismash --minimal *.gbk
#3、全功能运行 (四核计算机运行一个细菌基因组大概20分钟)
antismash --cb-general --cb-knownclusters --cb-subclusters --asf --pfam2go --smcog-trees --output-dir output_dir *.gbk
常见错误
1、在分析长度低于1000的GBK文件时会报错
解决方案:长度太短不具参考价值,个人选择删了不要了
2、RuntimeError: Output directory contains other files, aborting for safety(输出文件存在其他文件错误)
解决方案,由于之前分析中断产生的文件, 把该输出文件夹删了重新运行就行
3、RuntimeError: diamond failed to run: blastp -> ['Error: The sequences are expected to be proteins but only contain DNA letters. Use the option --ignore-warnings to proceed.'](这些序列预计是蛋白质,但只包含DNA字母)
本地版的diamond版本为2.0.15,通过 conda install diamond=2.0.9 将其降低至2.0.9版本解决此问题
4、ERROR 04/08 09:09:50 translation longer than location allows: 486 > 485: R1CP_RS39210(转录本长度与locaion长度大小不匹配)
解决方案:按照报错转录本ID信息在输入文件中检索位置,并更改location(complement)的范围,将其长度改一致 。
更改前:
更改后: