Linux系统下,VIBRANT的安装及配置

#VIBRANT,一款开源的从宏组装数据中识别病毒contig及预测病毒生活方式的的软件#

1. 下载 VIBRANT 工具

首先,你需要获取 VIBRANT 工具的代码或安装包。这里提供了两种下载方式:

Option 1: 使用 Git 克隆 VIBRANT 代码库。

git clone https://github.com/AnantharamanLab/VIBRANT

Option 2: 使用 Conda 安装 VIBRANT(推荐)。这里假设你已经配置了 Conda 并添加了 Bioconda 渠道。

conda install -c bioconda vibrant==1.2.1

!可能出现的报错:

报错原因:这个错误提示表明当前无法安装 VIBRANT 1.2.0,因为它要求 scikit-learn 版本不超过 0.21.3,但当前环境中找不到满足要求的版本。在环境中有一个被固定的 Python 版本为 3.11.*,这与 scikit-learn 要求的 Python 版本范围不匹配。要求 Python 版本——大于等于 3.6 且小于 3.7.0

解决方法:再安装一个python版本,然后在该版本下执行vibrant下载及运行

#安装python=3.6
conda create -n myenv python=3.6
#激活
conda activate myenv
#下载
conda install scikit-learn=0.21.2

#如果找不到自己的myenv路径可以运行
conda info --envs

2. 配置文件权限

在你下载的 VIBRANT 文件夹中,你可能需要更改文件的权限,以确保你有权执行其中的脚本和程序。这里使用 chmod -R 777 命令,但是请注意这会给予所有用户对该文件夹及其内容的读、写和执行权限。请根据实际情况设置权限。

chmod -R 777 VIBRANT

3. 下载数据库

VIBRANT 工具可能需要一些数据库来运行。假设提供了一个脚本 download-db.sh 来下载这些数据库。请确保在下载数据库之前已经配置好了网络连接和相关权限。

download-db.sh

4. 配置数据库(仅需运行一次)

VIBRANT/databases 目录下,有一个 VIBRANT_setup.py 脚本用于配置数据库。这个步骤只需要运行一次来初始化或更新数据库。

cd VIBRANT/databases
./VIBRANT_setup.py

!可能出现的报错:VIBRANT error: could not identify KEGG HMM files in database directory. Please run VIBRANT_setup.py. 

报错原因:HMM压缩出现问题导致数据库中文件不完整,检查是否没有h3p/h3m/h3f后缀的文件

解决方案:

step1——删除".h3i"后缀的文件,只有3个

step2——依次运行hmmpress KEGG_profiles_prokaryotes.HMM;hmmpress VOGDB94_phage.HMM 和 hmmpress Pfam-A_v32.HMM

下载好全部后缀文件后,不需要重新运行VIBRANT_setup.py!!!

5. 运行 VIBRANT

最后,你可以使用 VIBRANT_run.py 脚本来运行 VIBRANT 工具,分析你的数据。这个脚本可能需要一些参数,具体取决于你的数据和分析需求。通常,你需要提供输入文件的路径。

VIBRANT_run.py -i your.assembled.fna

请将 your.assembled.fna 替换为你的实际输入文件的路径。你可能还需要提供其他参数,例如输出目录、线程数等,具体取决于 VIBRANT 工具的使用说明。

常见可选参数:

  1. -t: 增加 VIBRANT 的并行运行数量。这个参数类似于线程数,但不会影响结果,只会影响运行时间。使用 -t 标志指定将输入文件拆分为多少个部分并行运行。例如,如果输入文件有 10 个 scaffold,并且指定了 -t 5,则会同时运行 5 次 VIBRANT,每次运行包含 2 个 scaffold。默认值为 1。

  2. -f: 指定输入是核苷酸还是蛋白质。当输入蛋白质时需要指定 -f prot,但是对于任何核苷酸输入都可以添加 -f nucl。默认为核苷酸输入 (nucl)。

  3. -folder: 指定 VIBRANT 输出文件夹和临时文件所在的目录。如果指定的目录不存在,则会创建它。默认为当前工作目录。

不常见可选参数:

  1. -l: 增加最小 scaffold 长度要求。默认最小长度为 1000 个碱基对。例如,如果使用 -l 5000,则 VIBRANT 只会考虑长度大于或等于 5000 个碱基对的 scaffold。

  2. -o: 增加每个 scaffold 所需的最小开放阅读框 (ORFs,或蛋白质) 数量要求。默认为 4 个 ORFs。例如,如果使用 -o 8,则 VIBRANT 只会考虑编码至少 8 个蛋白质的 scaffold。

  3. -virome: 如果输入数据集是一个病毒组成的组,而不是混合的宏基因组,可以谨慎使用这个标志。它会修改 VIBRANT 的敏感性,以删除明显的非病毒 scaffold。这不会影响运行时间。

  4. -no_plot: 跳过生成 VIBRANT 结果的图形表示。如果你不需要输出图形或者这个功能导致程序崩溃,你可以使用这个标志。这对运行时间影响不大。

很可能不会使用的可选参数:

  1. -d: 指定 databases/ 目录的位置,如果它被移动到了其他位置。

  2. -m: 指定 files/ 目录的位置,如果它被移动到了其他位置。

对于 -d-m 参数,请指定文件的完整路径。例如,-d new_location/databases/

这些是 VIBRANT 工具中可用的可选参数,你可以根据需要选择是否使用它们。

参考链接:https://github.com/AnantharamanLab/VIBRANT/issues/35

  • 25
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值