微生物分类神器 GTDB-Tk 本地化安装指南：从入门到实战

最新推荐文章于 2025-05-15 17:12:29 发布

邪恶的凹凸曼

最新推荐文章于 2025-05-15 17:12:29 发布

阅读量808

点赞数 30

文章标签：数据库笔记数据分析

本文链接：https://blog.csdn.net/pxyhelxd/article/details/147832283

版权

微生物分类神器 GTDB-Tk 本地化安装指南：从入门到实战

一、引言：为什么选择 GTDB-Tk？

在微生物基因组研究领域，准确的物种注释是后续分析的基石。GTDB（Genome Taxonomy Database）作为引领全基因组细菌、古菌分类的权威数据库，凭借其严谨的分类体系和高频更新（2018/2020 年连发两篇《Nature Biotechnology》，2021年发表《Nature Microbiology》），成为全球科研人员的首选。配套工具 GTDB-Tk 则提供了从基因组到物种分类的一站式解决方案，支持本地化部署，让分析更高效、可控。本文将手把手教你完成 GTDB-Tk 的安装与基础使用，助你快速上手微生物分类分析。

二、准备工作：安装前的必要条件

1. 环境搭建：conda 快速部署

推荐使用 conda 管理环境，避免依赖冲突：

# 创建并激活gtdbtk环境
conda create -n gtdbtk -c conda-forge -c bioconda gtdbtk=2.4.0
conda activate gtdbtk

注意：确保 conda 已配置 bioconda 和 conda-forge 通道，若遇网络问题，可尝试切换国内镜像源。

2. 核心数据：下载 GTDB 参考数据库

GTDB 数据库体积较大（如 2025 年 4 月最新版达 132GB），直接通过工具自带脚本下载可能较慢，推荐两种高效方案：

方案一：第三方平台快速获取

可从中国微生物科学数据中心下载历史版本（如 r207v2，67GB，2023 年 4 月更新），适合对数据版本要求不高的用户。

方案二：官方最新数据直连

通过官方链接获取实时更新数据（推荐！）：

# 下载最新完整包（2025年4月版本）
wget https://data.gtdb.ecogenomic.org/releases/latest/auxillary_files/gtdbtk_package/full_package/gtdbtk_data.tar.gz
# 解压到指定目录（如/data/gtdb_db/）
tar zxvf gtdbtk_data.tar.gz -C /path/to/your/database/

关键步骤：配置环境变量，让工具识别数据库路径：

echo 'export GTDB_TK_DATA_PATH=/path/to/your/database/release220/' >> ~/.bashrc
source ~/.bashrc  # 立即生效

三、安装验证：三步确认环境就绪

1. 检查工具与依赖

运行安装自检命令，确认所有依赖（如 FastTree、prodigal 等）已正确安装：

gtdbtk check_install

成功标志：输出日志显示 “All checks passed”，并明确显示 GTDB 版本（如 r220）和数据库路径。

2. 测试流程运行

使用内置测试数据验证工具功能：

gtdbtk test --out_dir gtdbtk_test  # 测试结果存储在gtdbtk_test目录

若流程顺利完成，说明环境配置无误，可进入实战环节。

四、实战操作：一键式物种注释

核心命令：分类工作流

只需一条命令，即可完成从基因组序列到物种注释的全流程分析：

gtdbtk classify_wf \
  --genome_dir /path/to/your/genomes/  # 输入基因组目录（支持.fa/.fasta格式） \
  --out_dir /path/to/output/  # 输出结果目录 \
  --cpus 32  # 分配CPU核心数，提升速度 \
  --mash_db /path/to/gtdb_db/MASH_DB  # MASH数据库路径（首次运行会自动创建） \
  --extension fa  # 指定输入文件扩展名

参数解析：