geNomad输出文件解读

WDPLA

已于 2024-02-22 16:37:55 修改

阅读量1.7k

点赞数 14

分类专栏：生物信息学病毒组分析 Linux 文章标签：网络

于 2024-02-22 15:56:30 首次发布

本文链接：https://blog.csdn.net/wdplaaa/article/details/136235325

版权

生物信息学同时被 3 个专栏收录

12 篇文章

订阅专栏

Linux

10 篇文章

订阅专栏

病毒组分析

4 篇文章

订阅专栏

geNomad是一个专注于在测序数据中识别病毒和质粒的工具，提供了病毒基因组分类、集成病毒检测以及蛋白质功能注释等功能。它还提供了详细的分析报告，包括序列信息、拓扑学、FDR评估和基因注释，有助于深入理解序列特性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#geNomad的主要目标是在测序数据（分离物、元基因组和元转录组）中识别病毒和质粒。它还提供了一些额外的功能，可以帮助进行分析：病毒基因组的分类；识别集成在宿主基因组中的病毒（proviruses）；蛋白质的功能注释#

VIBRANT输出文件共含6个目录、6个log文件：

目录1-_summary

包含了汇总了整个分析流程结果的文件。如果你只想获取输入中识别出的质粒和病毒的列表，这就是你需要的内容。

1.1 _virus.fna和_virus_proteins.faa:

分别是已识别的病毒序列及其蛋白质的FASTA文件。

1.2 _virus_summary.tsv：

seq_name：输入FASTA文件中序列的标识符。Proviruses将具有以下名称方案：<sequence_identifier>|provirus_<start_coordinate>_<end_coordinate>。

length：序列的长度（或原病毒，在集成病毒的情况下）。

topology：病毒序列的拓扑学。可能的值是：无终端重复、DTR（直接终端重复）、ITR（反向终端重复）或Provirus（集成在宿主基因组中的病毒）。

这里解释一下这些拓扑学类型：

无终端重复（No terminal repeats）：指病毒序列在两个端部没有重复的序列。这意味着病毒基因组的两端没有相同的序列。这种情况下，病毒可能以一种非典型的方式复制和维持其基因组完整性。

DTR（直接终端重复，Direct Terminal Repeats）：指病毒序列的两个端部具有相同的重复序列。这种结构通常与线性DNA病毒相关，其中病毒基因组在两个端部具有相同的序列，并且这些序列在复制过程中起到了关键作用。

ITR（反向终端重复，Inverted Terminal Repeats）：指病毒序列的两个端部具有相同的序列，但是这些序列以相反的方向出现。这种结构也常见于一些线性DNA病毒，它们的两端具有相似的序列，但是方向相反。

Provirus（集成病毒，Provirus）：指病毒基因组已经整合到宿主细胞的基因组中。在这种情况下，病毒基因组被作为DNA序列整合到宿主细胞染色体中，通常由反转录酶介导。这种情况下，病毒基因组不再以自主的形式存在，而是成为宿主基因组的一部分。

coordinates：宿主序列中原病毒区域的1个索引坐标。对于未预测会被整合的病毒，将是NA。

N_genes：序列中编码的基因数量。

Genetic_code：预测的遗传代码。可能的值是：11（细菌和古菌的标准代码），4（重新编码的TGA终止密码子）或15（重新编码的TAG终止密码子）。

virus_score：衡量geNomad对序列是病毒的信心程度。得分接近1.0的序列比得分较低的序列更可能是病毒。

fdr：分类的估计错误发现率（FDR）（即到此行的序列中假阳性的预期比例）。要估计FDRs，geNomad需要分数校准，默认情况下，该校准是关闭的。因此，此列仅包含本例中的NA值。

n_hallmarks：与标志性geNomad标记匹配的基因数量。霍尔马克是以前与病毒功能相关的基因，它们的存在强烈表明该序列确实是一种病毒。

Marker_enrichment：表示序列中病毒标记总富集的分数。该值随着序列中病毒标记数量的增加而变，因此具有多个标记的序列将获得更高的分数。染色体和质粒标记物会降低分数。

taxonomy：病毒基因组的分类。谱系遵循ICTV的VMR编号19中包含的分类法。

1.3 _virus_genes.tsv：

在执行过程中，geNomad使用染色体、质粒和病毒特异性标记的数据库对输入序列编码的基因进行注释。<prefix>_virus_genes.tsv文件总结了已识别病毒编码的基因的注释。

gene：基因的标识符（<sequence_name>_<gene_number>）。通常，基因数以1开头（序列中的第一个基因）。然而，由集成在宿主染色体中间的预后编码的基因可能以不同的数字开始，这取决于它在染色体中的位置。

start：基因的1-索引开始坐标。

end：基因的1索引终止坐标。

length：基因位点的长度（以碱基对为单位）。

strand：编码基因的链。可以是1（正链）或-1（负链）。

gc_content：基因位点的GC含量。

Genetic_code：预测的遗传代码（详见摘要文件解释中的详细信息）。

Rbs_motif：检测到的ribosome结合位点的图案。

marker：最佳匹配geNomad标记。如果该基因与任何标记不匹配，则该值将为NA。

evalue：基因编码的蛋白质与最佳匹配的geNomad标记之间对齐的E值。

bitscore：基因编码的蛋白质与最佳匹配的geNomad标记之间对齐的比特分。

uscg：分配给该基因的标记是否对应于通用单副本基因（UCSG，定义在BUSCO v5中）。这些基因有望在染色体中找到，在质粒和病毒中很少见。可以是1（基因是USCG）或0（基因不是USCG）。

Plasmid_hallmark：分配给该基因的标记是否代表质粒标志。

Virus_hallmark：分配给该基因的标记是否代表病毒标志。

taxid：分配给该基因的标记的分类学标识符（您可以忽略这一点，因为它旨在由geNomad在内部使用）。

taxname：与分配的geNomad标记关联的分类群名称。在这个例子中，我们可以看到注释的蛋白质都是Caudoviricetes的特征（这就是为什么原病毒被分配到这一类）。

annotation_conjscan：如果与基因匹配的标记是共轭相关基因（在CONJscan中定义），此字段将显示哪个CONJscan acession被分配给标记。

annotation_amr：如果与基因匹配的标记符用抗菌素耐药性（AMR）功能（在NCBIfam-AMRFinder中定义）进行注释，此字段将显示哪个NCBIfam cession被分配给标记。

annotation_accessions：一些geNomad标记是功能注释的。此列告诉您Pfam、TIGRFAM、COG和KEGG中的哪些条目被分配给标记。

Annotation_description：描述分配给标记的函数的文本。

这里的一个重要细节是，geNomad标记的主要目的是分类。它们被设计为特定于染色体、质粒或病毒，从而能够区分属于这些类别的序列。因此，您不应该期望每个病毒基因都会用geNomad标记进行注释。如果您想尽可能地注释序列中的基因，您应该使用Pfam或COG等数据库。

1.4 <prefix>_plasmid_summary.tsv、<prefix>_genes.tsv、<prefix>_plasmid.fna和<prefix>_plasmid_proteins.faa：

与其质粒识别相关的数据，这些大多与病毒对应物非常相似。

<prefix>_plasmid_summary.tsv（如下所示）的差异如下：

<prefix>_virus_summary.tsv（坐标和分类）中的特定于病毒的列不存在。

Conjugation_genes列列出了可能参与共轭的基因。重要的是要注意，此类基因的存在不足以判断给定的质粒是共轭的还是可动的。如果您有兴趣识别共轭质粒，我们建议您使用geNomad与CONJscan分析您识别的质粒。

Amr_genes列列出了具有抗菌素耐药性功能的基因。您可以在AMRFinderPlus网站上查看与每次加入相关的特定功能。

参考来源：GitHub - apcamargo/genomad: geNomad: Identification of mobile genetic elements