VIBRANT使用教程

sunxiaolinlinx

已于 2024-03-24 11:17:17 修改

阅读量1.1k

点赞数 1

文章标签： python 开发语言

于 2024-03-21 18:36:54 首次发布

本文链接：https://blog.csdn.net/sunxiaolinlinx/article/details/136888626

版权

VIBRANT是一个用于从细菌基因组和元基因组中自动检测、注释噬菌体的工具，利用HMMER、Prodigal等技术。本文档详细介绍了其安装、依赖、运行方法和输出解读。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以下是VIBRANT工具的中文文档：

VIBRANT
通过迭代注释进行病毒识别
2020年6月22日
Kristopher Kieft
Anantharaman实验室
威斯康辛大学麦迪逊分校
kieft@wisc.edu

当前版本
VIBRANT v1.2.1

引用
如果您发现VIBRANT有用，请考虑在Microbiome杂志中引用我们的手稿：
Kieft, K., Zhou, Z. & Anantharaman, K. VIBRANT: automated recovery, annotation and curation of microbial viruses, and evaluation of viral community function from genomic sequences. Microbiome 8, 90 (2020)。

内容添加（2020年6月22日）：
将脚本simplify_faa-ffn.py添加到scripts/文件夹中。此脚本可用于从VIBRANT噬菌体蛋白（.faa）和基因（.ffn）输出文件的定义行中删除多余的注释信息。具体而言，这将会将VIBRANT的蛋白质/基因输出从制表符分隔的格式转换为其他软件（例如Prodigal）生成的标准格式。此脚本的一个示例实现是将VIBRANT噬菌体蛋白质结果用于vConTACT2分类。使用此脚本的方法是：python3 simplify_faa-ffn.py example.phages_combined.faa。将示例 .faa 文件替换为您选择的任何VIBRANT输出 .faa 或 .ffn 文件。

程序描述
VIBRANT是一种用于自动化地从细菌基因组或元基因组序列中检测、注释和筛选噬菌体的工具。VIBRANT使用了多种策略来识别潜在的病毒序列，包括隐马尔可夫模型（HMMER）、Prodigal、VFDB和NCBI RefSeq数据库中的比对。它还利用了各种生物信息学工具和技术来对噬菌体基因组进行注释和分类。

要求
VIBRANT依赖于多个外部程序和Python3库。确保您的系统满足以下要求：

Python3（版本3.6或更高）
Prodigal（推荐版本2.6.3或更高）
HMMER3（版本3.1b2或更高）
GNU Parallel（版本20161222或更高） - 可选，但高度推荐
其他Python3库（通过pip install -r requirements.txt安装）：biopython，pandas，numpy，matplotlib

程序依赖
VIBRANT依赖于多个外部程序和Python3库。请确保您的系统上安装了以下软件和库：

外部程序：
Prodigal
HMMER3
GNU Parallel（可选）
Python3库（通过pip install -r requirements.txt安装）：
biopython
pandas
numpy
matplotlib

运行VIBRANT
快速开始
要运行VIBRANT，请按照以下步骤操作：

下载VIBRANT并解压缩文件。
确保您的系统满足所需的程序和库的要求。
准备您的输入数据。
打开终端，并导航到VIBRANT的目录。
使用以下命令运行VIBRANT：
python VIBRANT_run.py -i 输入文件 -o 输出目录
根据需要，调整参数和标志。
解释输出结果。
测试VIBRANT
为了测试VIBRANT是否正常工作，您可以使用提供的测试数据集。按照以下步骤进行测试：

导航到VIBRANT的目录。
运行以下命令：
python VIBRANT_run.py -i test_data.fasta -o test_output
检查输出目录以查看

测试结果，并确保与预期结果一致。

参数和标志
您可以在运行VIBRANT时使用以下参数和标志来自定义您的分析：

-h, --help：显示帮助信息并退出。
-i INPUT, --input INPUT：指定输入文件或目录。如果指定了目录，则处理该目录中的所有FASTA文件。
-o OUTPUT, --output OUTPUT：指定输出目录。
-r, --refseq：使用NCBI RefSeq数据库进行注释。默认情况下，使用VFDB进行注释。
-p PRODIGAL_PATH, --prodigal-path PRODIGAL_PATH：指定Prodigal可执行文件的路径。默认情况下，VIBRANT会在系统PATH中查找Prodigal。
-hmm HMMER_PATH, --hmmer-path HMMER_PATH：指定HMMER可执行文件的路径。默认情况下，VIBRANT会在系统PATH中查找HMMER。
-ncbi NCBI_PATH, --ncbi-path NCBI_PATH：指定NCBI工具（blastn和makeblastdb）的路径。默认情况下，VIBRANT会在系统PATH中查找这些工具。
-pfam PFAM_PATH, --pfam-path PFAM_PATH：指定Pfam数据库的路径。默认情况下，VIBRANT会在系统PATH中查找Pfam数据库。
-t THREADS, --threads THREADS：指定要使用的线程数。默认为1。
-c CONTIG, --contig CONTIG：指定是否应将输入文件视为一个连续序列。默认为False，即将每个序列视为一个独立的基因组。
-l LOG, --log LOG：指定日志文件的路径。默认情况下，日志将打印到标准输出。
输出解释
VIBRANT将生成多个输出文件，其中包含有关病毒序列的注释、预测和统计信息。以下是一些常见输出文件的解释：

phages_combined.fna：包含所有预测的病毒序列的FASTA文件。
phages_linear.fna：包含预测的线性病毒序列的FASTA文件。
phages_circular.fna：包含预测的循环病毒序列的FASTA文件。
phages_linear_or_circular.fna：包含预测的线性或循环病毒序列的FASTA文件。
prophage_regions.tsv：包含预测的预嵌合体区域的坐标信息。
integrated_prophage_coordinates.tsv：包含预测的预嵌合体区域的支架坐标信息。
summary_results.tsv：包含有关每个输入序列的预测和统计信息的摘要。
summary_normalized.tsv：是summary_results.tsv的规范化版本，以及用于分类的输入神经网络信息。
log_run.log：包含有关VIBRANT运行的摘要信息的日志文件。
log_annotation.log：包含有关VIBRANT注释过程的摘要信息的日志文件。
一般概述
VIBRANT文件和文件夹
在解压缩VIBRANT文件后，您将获得以下文件和文件夹：

VIBRANT_run.py：用于运行VIBRANT的主要Python脚本。
scripts/：包含用于辅助处理VIBRANT输出的脚本的文件夹。
test_data.fasta：用于测试VIBRANT的示例输入数据。
requirements.txt：包含用于安装VIBRANT依赖项的Python库列表。
LICENSE：VIBRANT的许可证文件。
CONTACT：联系信息。
CHANGELOG.md：VIBRANT的更改日志。
README.md：关于VIBRANT的简要说明。
联系人
如果您对VIBRANT有任何疑问或反馈意见，请随时联系我们：

Kristopher Kieft：kieft@wisc.edu
Zhou乾龙：zhouqianlong@wisc.edu
Anantharaman实验室：anantharaman@bact.wisc.edu
威斯康辛大学麦迪逊分校
Anantharaman实验室
基因组研究中心
1550 Linden Dr
麦迪逊，WI 53706

这是对VIBRANT工具的中文翻译文档。