Linux系统下，VIBRANT的安装及配置

WDPLA

已于 2024-01-28 16:39:49 修改

阅读量2k

点赞数 28

分类专栏：生物信息学 Linux 病毒组分析文章标签： linux 服务器

于 2024-01-26 09:51:17 首次发布

本文链接：https://blog.csdn.net/WDPLAAA/article/details/135858828

版权

生物信息学同时被 3 个专栏收录

12 篇文章

订阅专栏

Linux

10 篇文章

订阅专栏

病毒组分析

4 篇文章

订阅专栏

#VIBRANT，一款开源的从宏组装数据中识别病毒contig及预测病毒生活方式的的软件#

1. 下载 VIBRANT 工具

首先，你需要获取 VIBRANT 工具的代码或安装包。这里提供了两种下载方式：

Option 1: 使用 Git 克隆 VIBRANT 代码库。

git clone https://github.com/AnantharamanLab/VIBRANT

Option 2: 使用 Conda 安装 VIBRANT（推荐）。这里假设你已经配置了 Conda 并添加了 Bioconda 渠道。

conda install -c bioconda vibrant==1.2.1

！可能出现的报错：

报错原因：这个错误提示表明当前无法安装 VIBRANT 1.2.0，因为它要求 scikit-learn 版本不超过 0.21.3，但当前环境中找不到满足要求的版本。在环境中有一个被固定的 Python 版本为 3.11.*，这与 scikit-learn 要求的 Python 版本范围不匹配。要求 Python 版本——大于等于 3.6 且小于 3.7.0

解决方法：再安装一个python版本，然后在该版本下执行vibrant下载及运行

#安装python=3.6
conda create -n myenv python=3.6
#激活
conda activate myenv
#下载
conda install scikit-learn=0.21.2

#如果找不到自己的myenv路径可以运行
conda info --envs

2. 配置文件权限

在你下载的 VIBRANT 文件夹中，你可能需要更改文件的权限，以确保你有权执行其中的脚本和程序。这里使用 chmod -R 777 命令，但是请注意这会给予所有用户对该文件夹及其内容的读、写和执行权限。请根据实际情况设置权限。

chmod -R 777 VIBRANT

3. 下载数据库

VIBRANT 工具可能需要一些数据库来运行。假设提供了一个脚本 download-db.sh 来下载这些数据库。请确保在下载数据库之前已经配置好了网络连接和相关权限。

download-db.sh

4. 配置数据库（仅需运行一次）

在 VIBRANT/databases 目录下，有一个 VIBRANT_setup.py 脚本用于配置数据库。这个步骤只需要运行一次来初始化或更新数据库。

cd VIBRANT/databases
./VIBRANT_setup.py

！可能出现的报错：VIBRANT error: could not identify KEGG HMM files in database directory. Please run VIBRANT_setup.py.

报错原因：HMM压缩出现问题导致数据库中文件不完整，检查是否没有h3p/h3m/h3f后缀的文件

解决方案：

step1——删除".h3i"后缀的文件，只有3个

step2——依次运行hmmpress KEGG_profiles_prokaryotes.HMM；hmmpress VOGDB94_phage.HMM 和 hmmpress Pfam-A_v32.HMM

下载好全部后缀文件后，不需要重新运行VIBRANT_setup.py!!!

5. 运行 VIBRANT

最后，你可以使用 VIBRANT_run.py 脚本来运行 VIBRANT 工具，分析你的数据。这个脚本可能需要一些参数，具体取决于你的数据和分析需求。通常，你需要提供输入文件的路径。

VIBRANT_run.py -i your.assembled.fna

请将 your.assembled.fna 替换为你的实际输入文件的路径。你可能还需要提供其他参数，例如输出目录、线程数等，具体取决于 VIBRANT 工具的使用说明。

常见可选参数：

-t: 增加 VIBRANT 的并行运行数量。这个参数类似于线程数，但不会影响结果，只会影响运行时间。使用 -t 标志指定将输入文件拆分为多少个部分并行运行。例如，如果输入文件有 10 个 scaffold，并且指定了 -t 5，则会同时运行 5 次 VIBRANT，每次运行包含 2 个 scaffold。默认值为 1。
-f: 指定输入是核苷酸还是蛋白质。当输入蛋白质时需要指定 -f prot，但是对于任何核苷酸输入都可以添加 -f nucl。默认为核苷酸输入 (nucl)。
-folder: 指定 VIBRANT 输出文件夹和临时文件所在的目录。如果指定的目录不存在，则会创建它。默认为当前工作目录。

不常见可选参数：

-l: 增加最小 scaffold 长度要求。默认最小长度为 1000 个碱基对。例如，如果使用 -l 5000，则 VIBRANT 只会考虑长度大于或等于 5000 个碱基对的 scaffold。
-o: 增加每个 scaffold 所需的最小开放阅读框 (ORFs，或蛋白质) 数量要求。默认为 4 个 ORFs。例如，如果使用 -o 8，则 VIBRANT 只会考虑编码至少 8 个蛋白质的 scaffold。
-virome: 如果输入数据集是一个病毒组成的组，而不是混合的宏基因组，可以谨慎使用这个标志。它会修改 VIBRANT 的敏感性，以删除明显的非病毒 scaffold。这不会影响运行时间。
-no_plot: 跳过生成 VIBRANT 结果的图形表示。如果你不需要输出图形或者这个功能导致程序崩溃，你可以使用这个标志。这对运行时间影响不大。