病毒contig宿主预测工具iPHoP安装使用

iPHoP:一个集成的机器学习框架,可最大限度地预测古细菌和细菌的宏基因组衍生病毒的宿主

iPHoP集成了目前所有可用的病毒-宿主关系预测方法,并构建了一个机器学习框架,以获取病毒的全面宿主预测。

概述

iPHoP 代表 integrated Phage Host Prediction。它是一种自动化命令行管道,用于根据基因组序列预测新型噬菌体和古病毒的宿主属。

管道可以分为 6 个主要步骤:

答:第 1 步:运行单个主机预测工具

B:第 2 步:收集基于主机的工具的所有分数和所有命中之间的距离 * 两个潜在主机之间的距离,即给定工具和给定查询病毒的两次命中,基于 GTDB 树 (GTDB: an ongoing census of bacterial and archaeal diversity through a phylogenetically consistent, rank normalized and complete genome-based taxonomy | Nucleic Acids Research | Oxford Academic)

C:第 3 步和第 4 步:为每个病毒 - 工具 - 候选主机组合编制一个有组织的命中列表 * 对于每次命中,使用相同工具的同一病毒的排名靠前的其他命中将根据基本命中主机与其他命中主机之间的距离进行编译和组织(请参阅步骤 2) * 这些系列的命中用作自动分类器的输入,以得出给定病毒 - 候选宿主对的分数 * 这样就可以在考虑该病毒获得的热门命中的上下文时评估每个潜在宿主(每次命中)

D:第 5 步:为每种病毒的基于宿主的工具推导 3 个分数 - 候选宿主组合 * 仅基于原始病毒或 CRISPR 匹配的最高分数将被保留,因为这些方法本身对于宿主预测来说足够可靠 * 第三个分数是通过考虑所有单个分类器的所有分数(参见步骤 4)获得的,即考虑所有 5 种基于主机的方法

E:第 6 步:计算每个病毒的综合评分 - 候选宿主属组合,整合基于宿主和基于噬菌体的信号 * 然后将 3 个基于宿主的评分(见第 5 步)与基于噬菌体的评分 (RaFAH - Redirecting) 一起考虑,以获得所有病毒对的单一评分 - 候选宿主属。

conda安装

创建新环境:conda create -n iphop_env python=3.8
激活环境:conda activate iphop_env
安装:conda install -c conda-forge -c bioconda iphop=1.3.3
下载数据库(此数据库较大,340G左右

先在你需要下载数据库的目录下新建个文件夹:mkdir iphop_db

使用命令下载最新数据库版本iPHoP_db_Aug23_rw到iphop_db中:

iphop download --db_dir ./iphop_db/ -dbv iPHoP_db_Aug23_rw

运行

iphop predict -f virome.fa -o iphop_out -d ./iphop_db/Aug_2023_pub_rw -t 30

参数说明:

-f: 输入文件,病毒contig

-o:输出文件夹

-d:数据库位置

-t:线程数

主要输出文件

Host_prediction_to_genus_mXX.csv,其中 XX 是所选的最低分数截止值(默认值:Host_prediction_to_genus_m90.csv)

这包含来自宿主和噬菌体的工具在宿主属水平上的综合结果:

  • 此输出文件列出了每个预测的病毒序列 ID、查询与 RaFAH 噬菌体数据库中的基因组之间的氨基酸相似性 (AAI) 水平、预测的宿主属、 从所有工具计算出的置信度分数,以及为此病毒-宿主对获取的单个分类器的分数列表。
  • 对于分类器的详细分数,“RaFAH”表示从RaFAH(https://www.sciencedirect.com/science/article/pii/S2666389921001008)得出的分数,iPHoP-RF是从所有得出的分数 基于宿主的工具,CRISPR 仅从 CRISPR 命中得出的分数,以及仅从 blastn 命中得出的分数 blast
  • 包括置信度分数高于所选截止值(默认值 = 90)的所有病毒宿主对,因此每个病毒都可能与多个预测相关联(例如 IMGVR_UViG_3300029435_000003 和 IMGVR_UViG_3300029435_000009)。
  • 当查询病毒有多个预测可用时,典型的标准做法是使用得分最高的预测
Host_prediction_to_genome_mXX.csv,其中 XX 是所选的最低分数截止值(默认值:Host_prediction_to_genome_m90.csv)

这仅包含来自宿主基因组代表水平的基于宿主的工具(即没有RaFAH)的综合结果:

  • 该输出文件列出了每个基于宿主的预测的病毒序列 ID、代表性宿主基因组 ID、相应的宿主基因组分类、支持该预测的主要方法(即最高分)、 此主要方法的置信度分数,以及针对此病毒-宿主对获得的其他方法和分数的列表。此示例中包括Host_prediction_to_genus_m90.csv中的前 3 个重叠群(IMGVR_UViG_3300029435_000002、IMGVR_UViG_3300029435_000003 和 IMGVR_UViG_3300029435_000005)。
  • 注意:此输出文件中未提及IMGVR_UViG_3300029435_000002,因为没有基于主机的预测达到 90 的最低分数(请参阅上面的示例文件“Host_prediction_to_genus_m90.csv”)
  • 注意:对于IMGVR_UViG_3300029435_000003,对属 g__Lachnospira 和 g__CAG-81 的预测不包括在 Host_prediction_to_genus_m90.csv 文件中(见上文),因为一旦在属级别汇总,这些预测就不会达到 90 的最低分数
Detailed_output_by_tool.csv 文件
  • 此输出文件列出了每种输入病毒的每种方法的 5 个最佳命中。此示例中包括Host_prediction_to_genus_m90.csv中的第一个重叠群 (IMGVR_UViG_3300029435_000002)。
  • 如果未获得命中,则查询病毒的此输出文件中不会列出相应的方法。例如,在这里,IMGVR_UViG_3300029435_000002没有产生任何重大且可靠的爆炸命中,也没有列出爆炸结果。

补充

除了使用作者提供的数据库外,还可以将细菌和/或古细菌 MAG 添加到主机数据库,此部分详见作者的介绍:srouxjgi / iphop — Bitbucket

参考资料

srouxjgi / iphop — Bitbucket

 iPHoP: An integrated machine learning framework to maximize host prediction for metagenome-derived viruses of archaea and bacteria | PLOS Biology

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值