iPHoP:一个集成的机器学习框架,可最大限度地预测古细菌和细菌的宏基因组衍生病毒的宿主
iPHoP集成了目前所有可用的病毒-宿主关系预测方法,并构建了一个机器学习框架,以获取病毒的全面宿主预测。
概述
iPHoP 代表 integrated Phage Host Prediction。它是一种自动化命令行管道,用于根据基因组序列预测新型噬菌体和古病毒的宿主属。
管道可以分为 6 个主要步骤:
答:第 1 步:运行单个主机预测工具
- 基于噬菌体的工具:
- RaFAH (Redirecting):产生具有相关分数的宿主属的预测,存储以备后用(见步骤 5)
- 基于主机的工具:
- 原始细胞宿主基因组。所有具有 80% 身份≥且≥ 500bp 的命中都将被考虑。覆盖“宿主”重叠群长度≥ 50% 的命中被忽略,因为这些重叠群通常来自(几乎)完全病毒的重叠群,并且很容易在基因组或 MAG 中受到污染,因此对于宿主预测不可靠
- blastn 到 CRISPR 间隔数据库。所有最多 4 个 mistmaches 的命中都会被考虑在内。
- WIsH (WIsH: who is the host? Predicting prokaryotic hosts from metagenomic phage contigs | Bioinformatics | Oxford Academic) : 基于病毒与宿主基因组之间 k-mer 组成相似性的宿主关联
- VHM-s2*相似性(Alignment-free |$d_2^*$| oligonucleotide frequency dissimilarity measure improves prediction of hosts from metagenomically-derived viral sequences | Nucleic Acids Research | Oxford Academic /network-based integrated framework for predicting virus–prokaryote interactions | NAR Genomics and Bioinformatics | Oxford Academic):基于病毒与宿主基因组之间k-mer组成的相似性的宿主关联
- PHP (Prokaryotic virus host predictor: a Gaussian model for host prediction of prokaryotic viruses in metagenomics | BMC Biology | Full Text):基于病毒与宿主基因组之间 k-mer 组成相似性的宿主关联
B:第 2 步:收集基于主机的工具的所有分数和所有命中之间的距离 * 两个潜在主机之间的距离,即给定工具和给定查询病毒的两次命中,基于 GTDB 树 (GTDB: an ongoing census of bacterial and archaeal diversity through a phylogenetically consistent, rank normalized and complete genome-based taxonomy | Nucleic Acids Research | Oxford Academic)
C:第 3 步和第 4 步:为每个病毒 - 工具 - 候选主机组合编制一个有组织的命中列表 * 对于每次命中,使用相同工具的同一病毒的排名靠前的其他命中将根据基本命中主机与其他命中主机之间的距离进行编译和组织(请参阅步骤 2) * 这些系列的命中用作自动分类器的输入,以得出给定病毒 - 候选宿主对的分数 * 这样就可以在考虑该病毒获得的热门命中的上下文时评估每个潜在宿主(每次命中)
D:第 5 步:为每种病毒的基于宿主的工具推导 3 个分数 - 候选宿主组合 * 仅基于原始病毒或 CRISPR 匹配的最高分数将被保留,因为这些方法本身对于宿主预测来说足够可靠 * 第三个分数是通过考虑所有单个分类器的所有分数(参见步骤 4)获得的,即考虑所有 5 种基于主机的方法
E:第 6 步:计算每个病毒的综合评分 - 候选宿主属组合,整合基于宿主和基于噬菌体的信号 * 然后将 3 个基于宿主的评分(见第 5 步)与基于噬菌体的评分 (RaFAH - Redirecting) 一起考虑,以获得所有病毒对的单一评分 - 候选宿主属。
conda安装
创建新环境:conda create -n iphop_env python=3.8 激活环境:conda activate iphop_env 安装:conda install -c conda-forge -c bioconda iphop=1.3.3
下载数据库(此数据库较大,340G左右)
先在你需要下载数据库的目录下新建个文件夹:mkdir iphop_db
使用命令下载最新数据库版本iPHoP_db_Aug23_rw到iphop_db中:
iphop download --db_dir ./iphop_db/ -dbv iPHoP_db_Aug23_rw
运行
iphop predict -f virome.fa -o iphop_out -d ./iphop_db/Aug_2023_pub_rw -t 30
参数说明:
-f: 输入文件,病毒contig
-o:输出文件夹
-d:数据库位置
-t:线程数
主要输出文件
Host_prediction_to_genus_mXX.csv,其中 XX 是所选的最低分数截止值(默认值:Host_prediction_to_genus_m90.csv)
这包含来自宿主和噬菌体的工具在宿主属水平上的综合结果:
- 此输出文件列出了每个预测的病毒序列 ID、查询与 RaFAH 噬菌体数据库中的基因组之间的氨基酸相似性 (AAI) 水平、预测的宿主属、 从所有工具计算出的置信度分数,以及为此病毒-宿主对获取的单个分类器的分数列表。
- 对于分类器的详细分数,“RaFAH”表示从RaFAH(https://www.sciencedirect.com/science/article/pii/S2666389921001008)得出的分数,iPHoP-RF是从所有得出的分数 基于宿主的工具,CRISPR 仅从 CRISPR 命中得出的分数,以及仅从 blastn 命中得出的分数 blast
- 包括置信度分数高于所选截止值(默认值 = 90)的所有病毒宿主对,因此每个病毒都可能与多个预测相关联(例如 IMGVR_UViG_3300029435_000003 和 IMGVR_UViG_3300029435_000009)。
- 当查询病毒有多个预测可用时,典型的标准做法是使用得分最高的预测
Host_prediction_to_genome_mXX.csv,其中 XX 是所选的最低分数截止值(默认值:Host_prediction_to_genome_m90.csv)
这仅包含来自宿主基因组代表水平的基于宿主的工具(即没有RaFAH)的综合结果:
- 该输出文件列出了每个基于宿主的预测的病毒序列 ID、代表性宿主基因组 ID、相应的宿主基因组分类、支持该预测的主要方法(即最高分)、 此主要方法的置信度分数,以及针对此病毒-宿主对获得的其他方法和分数的列表。此示例中包括Host_prediction_to_genus_m90.csv中的前 3 个重叠群(IMGVR_UViG_3300029435_000002、IMGVR_UViG_3300029435_000003 和 IMGVR_UViG_3300029435_000005)。
- 注意:此输出文件中未提及IMGVR_UViG_3300029435_000002,因为没有基于主机的预测达到 90 的最低分数(请参阅上面的示例文件“Host_prediction_to_genus_m90.csv”)
- 注意:对于IMGVR_UViG_3300029435_000003,对属 g__Lachnospira 和 g__CAG-81 的预测不包括在 Host_prediction_to_genus_m90.csv 文件中(见上文),因为一旦在属级别汇总,这些预测就不会达到 90 的最低分数
Detailed_output_by_tool.csv 文件
- 此输出文件列出了每种输入病毒的每种方法的 5 个最佳命中。此示例中包括Host_prediction_to_genus_m90.csv中的第一个重叠群 (IMGVR_UViG_3300029435_000002)。
- 如果未获得命中,则查询病毒的此输出文件中不会列出相应的方法。例如,在这里,IMGVR_UViG_3300029435_000002没有产生任何重大且可靠的爆炸命中,也没有列出爆炸结果。