GTDB官网:GTDB - Genome Taxonomy Database (ecogenomic.org)
Github: https://github.com/Ecogenomics/GTDBTk
conda 安装见这个官方链接
https://ecogenomics.github.io/GTDBTk/installing/bioconda.html
conda env config vars set GTDBTK_DATA_PATH="/home/zhongpei/hard_disk_sda2/zhongpei/database/GTDB-tk/release214/"
gtdbtk check_install
#run
nohup gtdbtk classify_wf --cpus 80 -x gz --genome_dir /home/zhongpei/MJ/3.5 --out_dir /home/zhongpei/MJ/3.5/GTDB-tk/ --skip_ani_screen
#建树
gtdbtk infer --msa_file GTDB-tk/align/gtdbtk.bac120.user_msa.fasta.gz --out_dir infer_tree --cpus 8
我们今天用docker安装
参照:Docker — GTDB-Tk 2.2.6 documentation (ecogenomics.github.io)
##下载数据库
wget https://data.gtdb.ecogenomic.org/releases/latest/auxillary_files/gtdbtk_v2_data.tar.gz
wget https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/auxillary_files/gtdbtk_v2_data.tar.gz (or, mirror)
tar xvzf gtdbtk_v2_data.tar.gz
我们这边已经下载好了,后面记得映射
来万能的docker hub找一下
ecogenomic/gtdbtk
docker pull ecogenomic/gtdbtk:latest
下好之后先run起来试试(失败了)
================================================================================
ERROR
________________________________________________________________________________
The GTDB-Tk reference data does not exist or is corrupted.
GTDBTK_DATA_PATH=/refdata/
Please compare the checksum to those provided in the download repository.
https://github.com/Ecogenomics/GTDBTk#gtdb-tk-reference-data
================================================================================
看起来是路径问题了
按照说明把挂载名字改成refdata和data试试 还是不行
再试试
docker run -v ~/"你的基因组数据目录":/data/ -v "你的下载好的database目录"/release207:/refdata/ ecogenomic/gtdbtk:latest /bin/bash
release207一定要加上不然会一直有上面的报错!!!
但是出现了新的报错(哈哈哈哈)
gtdbtk: error: argument subparser_name: invalid choice: '/bin/bash'
##再改一下试试 加个itd
docker run -itd -v ~/"你的基因组数据目录":/data/ -v "你的下载好的database目录"/release207:/refdata/ ecogenomic/gtdbtk:latest
还是不行的
再试试直接跑,不-itd了
docker run -itd -v ~/"你的基因组数据目录":/data/ -v "你的下载好的database目录"/release207:/refdata/ ecogenomic/gtdbtk:latest classify_wf --genome_dir /data/ --out_dir /data/output --cpus 40
classify_wf的输入(—genome_dir)为包含多个基因组的文件夹,并指定输出文件(—out_dir)。可选参数有扩展名(—extension)默认为fna,可选fa,gz等;输出文件名前缀(—prefix),默认为gtdbtk;设置多线程加速(—cpus)。详细参数见gtdbtk classify_wf -h
报错了,看看这两个参数是干什么的
gtdbtk classify_wf: error: one of the arguments --skip_ani_screen --mash_db is required
mutually exclusive required arguments:
--skip_ani_screen Skip the ani_screening step to classify genomes using
mash and FastANI (default: False)
--mash_db MASH_DB path to save/read (if exists) the Mash reference
sketch database (.msh)
--skip_ani_screen 加上之后就可以跑了
[2023-04-11 13:54:59] INFO: GTDB-Tk v2.2.6
[2023-04-11 13:54:59] INFO: gtdbtk classify_wf --genome_dir /data/ --out_dir /data/output --cpus 40 --skip_ani_screen
[2023-04-11 13:54:59] INFO: Using GTDB-Tk reference data version r207: /refdata/
[2023-04-11 13:54:59] INFO: Identifying markers in 410 genomes with 40 threads.
[2023-04-11 13:55:00] TASK: Running Prodigal V2.6.3 to identify genes.
==> Processed 0/410 genomes (0%) | | [?genome/s, ETA ?]
加了nohup 看看会不会断吧!