GTDB-tk:完成微生物物种注释

CAAS_IFR_zp

已于 2024-03-05 22:36:48 修改

阅读量2k

点赞数 2

文章标签：学习

于 2023-04-11 21:58:28 首次发布

本文链接：https://blog.csdn.net/m0_53945548/article/details/130091983

版权

GTDB官网：GTDB - Genome Taxonomy Database (ecogenomic.org)

Github: https://github.com/Ecogenomics/GTDBTk

conda 安装见这个官方链接

https://ecogenomics.github.io/GTDBTk/installing/bioconda.html

conda env config vars set GTDBTK_DATA_PATH="/home/zhongpei/hard_disk_sda2/zhongpei/database/GTDB-tk/release214/" 
gtdbtk check_install
#run
nohup gtdbtk classify_wf --cpus 80 -x gz --genome_dir /home/zhongpei/MJ/3.5 --out_dir /home/zhongpei/MJ/3.5/GTDB-tk/ --skip_ani_screen

#建树
gtdbtk infer --msa_file GTDB-tk/align/gtdbtk.bac120.user_msa.fasta.gz --out_dir infer_tree --cpus 8

我们今天用docker安装

参照：Docker — GTDB-Tk 2.2.6 documentation (ecogenomics.github.io)

##下载数据库

wget https://data.gtdb.ecogenomic.org/releases/latest/auxillary_files/gtdbtk_v2_data.tar.gz
wget https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/auxillary_files/gtdbtk_v2_data.tar.gz  (or, mirror)
tar xvzf gtdbtk_v2_data.tar.gz

我们这边已经下载好了，后面记得映射

来万能的docker hub找一下

ecogenomic/gtdbtk

docker pull ecogenomic/gtdbtk:latest

下好之后先run起来试试（失败了）

================================================================================
                                     ERROR                                      
________________________________________________________________________________

           The GTDB-Tk reference data does not exist or is corrupted.           
                           GTDBTK_DATA_PATH=/refdata/                           

   Please compare the checksum to those provided in the download repository.    
          https://github.com/Ecogenomics/GTDBTk#gtdb-tk-reference-data          
================================================================================

看起来是路径问题了

按照说明把挂载名字改成refdata和data试试还是不行

再试试

docker run -v ~/"你的基因组数据目录":/data/ -v "你的下载好的database目录"/release207:/refdata/  ecogenomic/gtdbtk:latest /bin/bash

release207一定要加上不然会一直有上面的报错！！！

但是出现了新的报错（哈哈哈哈）

gtdbtk: error: argument subparser_name: invalid choice: '/bin/bash'

##再改一下试试加个itd

docker run -itd -v ~/"你的基因组数据目录":/data/ -v "你的下载好的database目录"/release207:/refdata/  ecogenomic/gtdbtk:latest

还是不行的

再试试直接跑，不-itd了

docker run -itd -v ~/"你的基因组数据目录":/data/ -v "你的下载好的database目录"/release207:/refdata/  ecogenomic/gtdbtk:latest classify_wf --genome_dir /data/ --out_dir /data/output --cpus 40

classify_wf的输入(—genome_dir)为包含多个基因组的文件夹，并指定输出文件(—out_dir)。可选参数有扩展名(—extension)默认为fna，可选fa，gz等；输出文件名前缀(—prefix)，默认为gtdbtk；设置多线程加速(—cpus)。详细参数见gtdbtk classify_wf -h

报错了，看看这两个参数是干什么的

gtdbtk classify_wf: error: one of the arguments --skip_ani_screen --mash_db is required

mutually exclusive required arguments:
  --skip_ani_screen     Skip the ani_screening step to classify genomes using
                        mash and FastANI (default: False)
  --mash_db MASH_DB     path to save/read (if exists) the Mash reference
                        sketch database (.msh)

--skip_ani_screen 加上之后就可以跑了

[2023-04-11 13:54:59] INFO: GTDB-Tk v2.2.6
[2023-04-11 13:54:59] INFO: gtdbtk classify_wf --genome_dir /data/ --out_dir /data/output --cpus 40 --skip_ani_screen
[2023-04-11 13:54:59] INFO: Using GTDB-Tk reference data version r207: /refdata/
[2023-04-11 13:54:59] INFO: Identifying markers in 410 genomes with 40 threads.
[2023-04-11 13:55:00] TASK: Running Prodigal V2.6.3 to identify genes.

==> Processed 0/410 genomes (0%) |               | [?genome/s, ETA ?]

加了nohup 看看会不会断吧！

CAAS_IFR_zp

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
GTDB-tk:完成微生物物种注释

classify_wf的输入(—genome_dir)为包含多个基因组的文件夹，并指定输出文件(—out_dir)。可选参数有扩展名(—extension)默认为fna，可选fa，gz等；release207一定要加上不然会一直有上面的报错！--skip_ani_screen 加上之后就可以跑了。我们这边已经下载好了，后面记得映射。下好之后先run起来试试（失败了）报错了，看看这两个参数是干什么的。加了nohup 看看会不会断吧！但是出现了新的报错（哈哈哈哈）再试试直接跑，不-itd了。
复制链接

扫一扫