微生物基因组分类数据库GTDB(Windows下载后上传至服务器)和软件GTDB-Tk(conda安装)
介绍
基因组分类数据库:GENOME TAXONOMY DATABASE(https://gtdb.ecogenomic.org/)
GTDB Release 214.1 is now available(63G,太大了简直。我用服务器直接下载提示要100多天才能下载完成)
所以还是用电脑Windows下载后上传至服务器方便些!
conda安装GTDB-Tk
conda create -n GTDBTk #GTDB-Tk v2.1.0
conda activate GTDBTk
conda install bioconda::gtdbtk
下载微生物基因组分类数据库GTDB(用自己电脑直接下载啦)
GTDB-Tk requires ~84G of external data that needs to be downloaded and unarchived:
wget https://data.gtdb.ecogenomic.org/releases/latest/auxillary_files/gtdbtk_data.tar.gz
wget https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/auxillary_files/gtdbtk_data.tar.gz (or, mirror)
tar xvzf gtdbtk_data.tar.gz #解压后会得到“release214”的文件夹
上传至服务器指定位置
# 我们是通过conda安装的,所以会有xxx/envs/GTDBTk/share/gtdbtk-2.1.0/db
cd /mnt/raid0/chengzi/home/cc/envs/GTDBTk/share/gtdbtk-2.1.0/db
# 再将解压得到的release214文件夹里的所有复制到/mnt/raid0/chengzi/home/cc/envs/GTDBTk/share/gtdbtk-2.1.0/db
测试安装是否成功
#首先指定参考数据库所在位置
GTDBTK_DATA_PATH="/mnt/raid0/chengzi/home/cc/envs/GTDBTk/share/gtdbtk-2.1.0/db"
#查看参考数据库位置
conda env config vars list
## 测试流程
gtdbtk check_install #检查数据库,结果显示OK和Done表示正常
gtdbtk test --out_dir gtdbtk_test #[2024-03-25 11:26:26] INFO: Test has successfully finished.
运行 (注释)
# 注释
gtdbtk classify_wf --genome_dir genomes/ -x fasta --skip_ani_screen --out_dir classify_wf_out --cpus 36 #--genome_dir 是待注释的基因组所在文件夹;-x fa 指定基因组的后缀,默认fna