VIBRANT输出文件完全解读

#VIBRANT,一款开源的从宏组装数据中识别病毒contig及预测病毒生活方式的的软件#

VIBRANT输出文件共含5个目录、5个单独文件

4个单独文件:

1. 2个log日志
2. **对所有输入scaffold进行的 Prodigal 预测蛋白质。
3. **对所有输入scaffold进行的 Prodigal 预测基因。
4. **对所有输入scaffold的 Prodigal 预测 gff 文件。

5个目录:

目录1.VIBRANT_figures_

1.1 _figures_pathways_:针对鉴定出的病毒 AMG 的 KEGG 通路的图形摘要(条形图)。
1.2 _figures_phages_:**关于总输入scaffold比例的图形摘要(嵌套泡泡图),大于或等于最小大小限制的支架数量,以及识别出的病毒数量。必须至少有 10 个输入序列,才会生成此文件。所表示的数字可以在运行日志文件log中找到。
1.3 _figures_quality_:病毒数量每个基因组质量类别的图形摘要(条形图)。可能的 x 轴类别有高质量、中等质量和低质量草稿,以及*完整圆形。如果没有识别出该类别的病毒,则可能不存在任何类别。
1.4 _figures_sizes_:**已识别的病毒的基因组大小的图形摘要(直方图)

1.5_figure_PCA_:PCA图总结了预测的病毒,包含有关病毒scaffold的质量、生活方式、圆形/线性、大小和一般关系的信息。只有在确定至少3个病毒scaffolds的情况下,才会生成PCA图。文件"_summary_normalized_..tsv"用于构建绘图,文件"_figure_PCA_..tsv"为每个scaffold提供坐标信息。

目录2.VIBRANT_HMM_tables_parsed_

包含解析的 HMM 表格原始输出的文件夹。任何一个包含的文件可能为空。此文件夹可能没有用处,但包含非冗余的注释信息。包含病毒和非病毒注释:
2.1 KEGG 解析的 HMM 表格原始输出。
2.2 Pfam 解析的 HMM 表格原始输出。
2.3 VOG 解析的 HMM 表格原始输出。

目录3.VIBRANT_HMM_tables_unformatted_

包含未解析(未格式化)的 HMM 完整原始输出的文件夹。任何一个包含的文件可能为空。此文件夹可能没有用处,但包含完整的注释信息。包含病毒和非病毒注释:
3.1 KEGG 未解析的 HMM 完整原始输出。
3.2 Pfam 未解析的 HMM 完整原始输出。
3.3 VOG 未解析的 HMM 完整原始输出。

目录4.VIBRANT_phages_

包含预测病毒的 FASTA 文件和相关文件的文件夹。如果没有符合标准的病毒,则任何一个包含的文件可能为空。溶原性病毒是通过从较大的scaffold中切除的任何病毒scaffold或编码整合酶的任何病毒scaffold来确定的。裂解性病毒是所有其他病毒。对于已识别的病毒:
4.1 _combined.faa:所有病毒编码的蛋白质。注意:任何已从宿主scaffold中切除的溶源性病毒将具有术语 "fragment" 和附加到原始名称的数字,以指示它不代表整个支架。此文件,以及3个_lysogenic文件,仅包含已切除的片段。
4.2 _combined.ffn:**所有病毒编码的基因。
4.3 _combined.fna:**所有病毒基因组。
4.4 _combined.gbk:**所有病毒基因组的GenBank格式文件。
4.5 _combined.txt:所有病毒基因组的名称列表(FASTA 定义行)。注意:由于支架的碎片化,此文件可能无法完全匹配原始输入序列名称。此名称列表与4个_combind.文件匹配。
4.6 _lysogenic.faa:**预测的溶源性病毒(组合的子集)的病毒编码蛋白质。
4.7 _lysogenic.ffn:**预测的溶源性病毒(组合的子集)的病毒编码基因。
4.8 _lysogenic.fna:**预测的溶源性病毒(组合的子集)的病毒基因组。
4.9 _lytic.faa:**预测的裂解性病毒(组合的子集)的病毒编码蛋白质。
4.10 _lytic.ffn:**预测的裂解性病毒(组合的子集)的病毒编码基因。
4.11 _lytic.fna:**预测的裂解性病毒(组合的子集)的病毒编码基因组。

4.12 _phages_circular.fna: *所有被识别为环状病毒的基因组。

目录5.VIBRANT_results

包含预测病毒的有用的制表符分隔文件的文件夹。
5.1 VIBRANT_AMG_counts_:所有预测病毒 AMGs(按 KEGG KO)及每种的总数列表。文件可能为空。
5.2 VIBRANT_AMG_individuals:按蛋白质及其相应基因组列出的单个预测病毒 AMGs 的列表。AMGs 是由 KEGG 注释确定的,但如果适用,也给出 Pfam 注释。文件可能为空。
5.3 VIBRANT_AMG_pathways:总结存在的与病毒 AMGs 相对应的 KEGG 代谢通路列表(by KEGG map entry)。查看文件VIBRANT_AMG_individuals中的单个 AMGs。文件可能为空。有关 KEGG 代谢通路的详细信息,请参阅以下链接:https://www.genome.jp/kegg/pathway.html.
5.4 VIBRANT_annotations:所有预测病毒的 KEGG、Pfam 和 VOG 的注释及相关信息的完整列表。空行表示未给出注释的蛋白质。注释名称可在 KO/KO 名称、Pfam/Pfam 名称 和 VOG/VOG 名称列中找到。列 AMG 将指示注释是否被认为是 "AMG" 或不是(空白)。Evalue 和 score 列是由 HMMsearch 生成的注释置信度。提供了 Evalues,但分数用作注释的截止值(必须至少为 40 的分数)。V-score 列是与每个 KO、Pfam 和 VOG 关联的 VIBRANT 特定的 "'virus-like" 分数。简而言之:分数为 0 表示与病毒的关联性非常低或没有关联;0.01 - 0.1 表示低关联性;0.1 - 1 表示中等关联性;1 - 5 表示显著关联性;5 - 10 表示极大关联性;10(最大值)在大多数情况下表示病毒特征基因。
5.5 VIBRANT_complete_circular:**预测为圆形且因此为完整基因组的病毒基因组。文件可能为空。通过基于 kmer 的搜索确定圆形化每个病毒预测基因组的末端之间的匹配。必须至少有 20bp 的相同匹配。
5.6 VIBRANT_figure_PCA:对应PCA图形中每个病毒scaffold的信息。

5.7 VIBRANT_genbank_table:所有预测病毒蛋白质使用的单一注释的列表。注释是基于最佳分数命中选择的。该文件用于生成文件4.4 _combined.gbk,但如果不存在文件4.4 _combined.gbk,则会出现。
5.8 VIBRANT_genome_quality:总结了所有预测病毒的预测基因组质量和类型(溶源性/裂解性性)。质量可能是片段、低、中等或高质量草稿。*如果适用,完整的圆形基因组将列在最后并且是多余的。也就是说,任何完整的圆形基因组也将被分配质量评估值。

5.9 VIBRANT_integrated_prophage_coordinates_:从宿主scaffold上切除的每个对应的prophage的scaffold/基因组信息。该文件通过蛋白质和核苷酸坐标提供了假定的prophage的位置。所有病毒scaffold都是名称中带有“fragment_#”的scaffold。
5.10 VIBRANT_machine:从宿主支架中切除的每个集成溶源性病毒的scaffold/genome坐标信息。此文件通过蛋白质和核苷酸坐标提供了潜在溶源性病毒的位置。所有病毒scaffold都是相应于名称中带有 "fragment_#" 的scaffold。

5.11 VIBRANT_summary_normalized_:文件VIBRANT_summary_results的标准化版本。这个标准化版本用于构建PCA图,也是读入神经网络分类器的数据。每个scaffold的总蛋白质被标准化为总蛋白质的log10,每个scaffold的所有其他指标都通过将原始指标除以原始编码蛋白质的数量来均一化。
5.12 VIBRANT_summary_results:由神经网络机器学习分类器进行的预测摘要列表。将包含病毒和非病毒。此文件可能没有用处,但对于检查输出可能是有用的。在分类器之后有筛选步骤来验证预测结果,因此此文件中的预测结果可能与最终输出不完全匹配。如果未使用分类器,则文件可能为空。


对于筛选使用VIBRANT输出的结果并用于后续分析,可以参考以下步骤进行:

  1. 目录1:VIBRANT_figures_:

    • 这些图形摘要可以提供关于病毒的一般特征、数量和分布的信息。你可以查看这些图形,以获得有关病毒在样本中的分布情况、基因组大小、质量等方面的洞见。
  2. 目录2和目录3:VIBRANT_HMM_tables_parsed_和VIBRANT_HMM_tables_unformatted_:

    • 这些目录包含有关病毒和非病毒注释的原始输出。你可以查看这些表格以获取有关病毒基因的功能和特征的信息。注释可以包括与KEGG、Pfam和VOG相关的信息,以及与病毒相关的特定分数(如'virus-like'分数)。
  3. 目录4:VIBRANT_phages_:

    • 这个目录包含了病毒的FASTA文件和其他相关文件。你可以使用这些文件来进一步研究病毒的基因组、蛋白质编码等信息。特别是,你可能对具有完整圆形基因组的病毒特别感兴趣。
  4. 目录5:VIBRANT_results:

    • 这个目录包含了关于病毒AMGs、基因组质量、注释、圆形基因组等方面的分析结果。你可以根据具体需求选择需要的文件进行进一步分析。

针对筛选结果并进行后续分析,以下是一些可能的步骤:

  • **确定感兴趣的病毒类型:**根据你的研究目的,确定你感兴趣的病毒类型,比如裂解性病毒或溶源性病毒。

  • **筛选具有完整基因组的病毒:**如果你对完整基因组的病毒感兴趣,可以筛选出目录5中的VIBRANT_complete_circular文件中的相关信息。

  • **分析病毒AMGs:**如果你对病毒的代谢潜能感兴趣,可以查看目录5中的VIBRANT_AMG_counts_、VIBRANT_AMG_individuals和VIBRANT_AMG_pathways文件。

  • **注释和功能分析:**通过查看目录5中的VIBRANT_annotations文件,你可以了解到关于病毒基因的注释和功能信息。

  • **进一步的基因组分析:**使用目录4中的病毒基因组文件,你可以进行更深入的基因组分析,比如基因预测、基因家族分析等。

根据具体研究问题和目标,选择合适的文件和信息进行分析,并在后续的研究中加以利用。

参考链接:https://github.com/AnantharamanLab/VIBRANT

  • 46
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值