GTDB-tk:完成微生物物种注释

GTDB官网:GTDB - Genome Taxonomy Database (ecogenomic.org)

Github: https://github.com/Ecogenomics/GTDBTk

conda 安装见这个官方链接

https://ecogenomics.github.io/GTDBTk/installing/bioconda.html

conda env config vars set GTDBTK_DATA_PATH="/home/zhongpei/hard_disk_sda2/zhongpei/database/GTDB-tk/release214/" 
gtdbtk check_install
#run
nohup gtdbtk classify_wf --cpus 80 -x gz --genome_dir /home/zhongpei/MJ/3.5 --out_dir /home/zhongpei/MJ/3.5/GTDB-tk/ --skip_ani_screen

#建树
gtdbtk infer --msa_file GTDB-tk/align/gtdbtk.bac120.user_msa.fasta.gz --out_dir infer_tree --cpus 8

我们今天用docker安装

参照:Docker — GTDB-Tk 2.2.6 documentation (ecogenomics.github.io)

##下载数据库 

wget https://data.gtdb.ecogenomic.org/releases/latest/auxillary_files/gtdbtk_v2_data.tar.gz
wget https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/auxillary_files/gtdbtk_v2_data.tar.gz  (or, mirror)
tar xvzf gtdbtk_v2_data.tar.gz

我们这边已经下载好了,后面记得映射

 来万能的docker hub找一下

ecogenomic/gtdbtk

docker pull ecogenomic/gtdbtk:latest

下好之后先run起来试试(失败了)

================================================================================
                                     ERROR                                      
________________________________________________________________________________

           The GTDB-Tk reference data does not exist or is corrupted.           
                           GTDBTK_DATA_PATH=/refdata/                           

   Please compare the checksum to those provided in the download repository.    
          https://github.com/Ecogenomics/GTDBTk#gtdb-tk-reference-data          
================================================================================

看起来是路径问题了

 按照说明把挂载名字改成refdata和data试试  还是不行

再试试

docker run -v ~/"你的基因组数据目录":/data/ -v "你的下载好的database目录"/release207:/refdata/  ecogenomic/gtdbtk:latest /bin/bash

release207一定要加上不然会一直有上面的报错!!!

但是出现了新的报错(哈哈哈哈)

gtdbtk: error: argument subparser_name: invalid choice: '/bin/bash'

##再改一下试试 加个itd 

docker run -itd -v ~/"你的基因组数据目录":/data/ -v "你的下载好的database目录"/release207:/refdata/  ecogenomic/gtdbtk:latest

还是不行的

再试试直接跑,不-itd了

docker run -itd -v ~/"你的基因组数据目录":/data/ -v "你的下载好的database目录"/release207:/refdata/  ecogenomic/gtdbtk:latest classify_wf --genome_dir /data/ --out_dir /data/output --cpus 40

classify_wf的输入(—genome_dir)为包含多个基因组的文件夹,并指定输出文件(—out_dir)。可选参数有扩展名(—extension)默认为fna,可选fa,gz等;输出文件名前缀(—prefix),默认为gtdbtk;设置多线程加速(—cpus)。详细参数见gtdbtk classify_wf -h
 

报错了,看看这两个参数是干什么的

gtdbtk classify_wf: error: one of the arguments --skip_ani_screen --mash_db is required
mutually exclusive required arguments:
  --skip_ani_screen     Skip the ani_screening step to classify genomes using
                        mash and FastANI (default: False)
  --mash_db MASH_DB     path to save/read (if exists) the Mash reference
                        sketch database (.msh)

--skip_ani_screen 加上之后就可以跑了

[2023-04-11 13:54:59] INFO: GTDB-Tk v2.2.6
[2023-04-11 13:54:59] INFO: gtdbtk classify_wf --genome_dir /data/ --out_dir /data/output --cpus 40 --skip_ani_screen
[2023-04-11 13:54:59] INFO: Using GTDB-Tk reference data version r207: /refdata/
[2023-04-11 13:54:59] INFO: Identifying markers in 410 genomes with 40 threads.
[2023-04-11 13:55:00] TASK: Running Prodigal V2.6.3 to identify genes.

==> Processed 0/410 genomes (0%) |               | [?genome/s, ETA ?]

加了nohup 看看会不会断吧!

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值