#VIBRANT,一款开源的从宏组装数据中识别病毒contig及预测病毒生活方式的的软件#
1. 下载 VIBRANT 工具
首先,你需要获取 VIBRANT 工具的代码或安装包。这里提供了两种下载方式:
Option 1: 使用 Git 克隆 VIBRANT 代码库。
git clone https://github.com/AnantharamanLab/VIBRANT
Option 2: 使用 Conda 安装 VIBRANT(推荐)。这里假设你已经配置了 Conda 并添加了 Bioconda 渠道。
conda install -c bioconda vibrant==1.2.1
!可能出现的报错:
报错原因:这个错误提示表明当前无法安装 VIBRANT 1.2.0,因为它要求 scikit-learn
版本不超过 0.21.3,但当前环境中找不到满足要求的版本。在环境中有一个被固定的 Python 版本为 3.11.*,这与 scikit-learn
要求的 Python 版本范围不匹配。要求 Python 版本——大于等于 3.6 且小于 3.7.0
解决方法:再安装一个python版本,然后在该版本下执行vibrant下载及运行
#安装python=3.6
conda create -n myenv python=3.6
#激活
conda activate myenv
#下载
conda install scikit-learn=0.21.2
#如果找不到自己的myenv路径可以运行
conda info --envs
2. 配置文件权限
在你下载的 VIBRANT 文件夹中,你可能需要更改文件的权限,以确保你有权执行其中的脚本和程序。这里使用 chmod -R 777
命令,但是请注意这会给予所有用户对该文件夹及其内容的读、写和执行权限。请根据实际情况设置权限。
chmod -R 777 VIBRANT
3. 下载数据库
VIBRANT 工具可能需要一些数据库来运行。假设提供了一个脚本 download-db.sh
来下载这些数据库。请确保在下载数据库之前已经配置好了网络连接和相关权限。
download-db.sh
4. 配置数据库(仅需运行一次)
在 VIBRANT/databases
目录下,有一个 VIBRANT_setup.py
脚本用于配置数据库。这个步骤只需要运行一次来初始化或更新数据库。
cd VIBRANT/databases
./VIBRANT_setup.py
!可能出现的报错:VIBRANT error: could not identify KEGG HMM files in database directory. Please run VIBRANT_setup.py.
报错原因:HMM压缩出现问题导致数据库中文件不完整,检查是否没有h3p/h3m/h3f后缀的文件
解决方案:
step1——删除".h3i"后缀的文件,只有3个
step2——依次运行hmmpress KEGG_profiles_prokaryotes.HMM;hmmpress VOGDB94_phage.HMM
和 hmmpress Pfam-A_v32.HMM
下载好全部后缀文件后,不需要重新运行VIBRANT_setup.py!!!
5. 运行 VIBRANT
最后,你可以使用 VIBRANT_run.py
脚本来运行 VIBRANT 工具,分析你的数据。这个脚本可能需要一些参数,具体取决于你的数据和分析需求。通常,你需要提供输入文件的路径。
VIBRANT_run.py -i your.assembled.fna
请将 your.assembled.fna
替换为你的实际输入文件的路径。你可能还需要提供其他参数,例如输出目录、线程数等,具体取决于 VIBRANT 工具的使用说明。
常见可选参数:
-
-t: 增加 VIBRANT 的并行运行数量。这个参数类似于线程数,但不会影响结果,只会影响运行时间。使用
-t
标志指定将输入文件拆分为多少个部分并行运行。例如,如果输入文件有 10 个 scaffold,并且指定了-t 5
,则会同时运行 5 次 VIBRANT,每次运行包含 2 个 scaffold。默认值为 1。 -
-f: 指定输入是核苷酸还是蛋白质。当输入蛋白质时需要指定
-f prot
,但是对于任何核苷酸输入都可以添加-f nucl
。默认为核苷酸输入 (nucl
)。 -
-folder: 指定 VIBRANT 输出文件夹和临时文件所在的目录。如果指定的目录不存在,则会创建它。默认为当前工作目录。
不常见可选参数:
-
-l: 增加最小 scaffold 长度要求。默认最小长度为 1000 个碱基对。例如,如果使用
-l 5000
,则 VIBRANT 只会考虑长度大于或等于 5000 个碱基对的 scaffold。 -
-o: 增加每个 scaffold 所需的最小开放阅读框 (ORFs,或蛋白质) 数量要求。默认为 4 个 ORFs。例如,如果使用
-o 8
,则 VIBRANT 只会考虑编码至少 8 个蛋白质的 scaffold。 -
-virome: 如果输入数据集是一个病毒组成的组,而不是混合的宏基因组,可以谨慎使用这个标志。它会修改 VIBRANT 的敏感性,以删除明显的非病毒 scaffold。这不会影响运行时间。
-
-no_plot: 跳过生成 VIBRANT 结果的图形表示。如果你不需要输出图形或者这个功能导致程序崩溃,你可以使用这个标志。这对运行时间影响不大。
很可能不会使用的可选参数:
-
-d: 指定 databases/ 目录的位置,如果它被移动到了其他位置。
-
-m: 指定 files/ 目录的位置,如果它被移动到了其他位置。
对于 -d
和 -m
参数,请指定文件的完整路径。例如,-d new_location/databases/
。
这些是 VIBRANT 工具中可用的可选参数,你可以根据需要选择是否使用它们。