#geNomad的主要目标是在测序数据(分离物、元基因组和元转录组)中识别病毒和质粒。它还提供了一些额外的功能,可以帮助进行分析:病毒基因组的分类;识别集成在宿主基因组中的病毒(proviruses);蛋白质的功能注释#
VIBRANT输出文件共含6个目录、6个log文件:
目录1-_summary
包含了汇总了整个分析流程结果的文件。如果你只想获取输入中识别出的质粒和病毒的列表,这就是你需要的内容。
1.1 _virus.fna和_virus_proteins.faa:
分别是已识别的病毒序列及其蛋白质的FASTA文件。
1.2 _virus_summary.tsv:
seq_name:输入FASTA文件中序列的标识符。Proviruses将具有以下名称方案:<sequence_identifier>|provirus_<start_coordinate>_<end_coordinate>。
length:序列的长度(或原病毒,在集成病毒的情况下)。
topology:病毒序列的拓扑学。可能的值是:无终端重复、DTR(直接终端重复)、ITR(反向终端重复)或Provirus(集成在宿主基因组中的病毒)。
这里解释一下这些拓扑学类型:
无终端重复(No terminal repeats):指病毒序列在两个端部没有重复的序列。这意味着病毒基因组的两端没有相同的序列。这种情况下,病毒可能以一种非典型的方式复制和维持其基因组完整性。
DTR(直接终端重复,Direct Terminal Repeats):指病毒序列的两个端部具有相同的重复序列。这种结构通常与线性DNA病毒相关,其中病毒基因组在两个端部具有相同的序列,并且这些序列在复制过程中起到了关键作用。
ITR(反向终端重复,Inverted Terminal Repeats):指病毒序列的两个端部具有相同的序列,但是这些序列以相反的方向出现。这种结构也常见于一些线性DNA病毒,它们的两端具有相似的序列,但是方向相反。
Provirus(集成病毒,Provirus):指病毒基因组已经整合到宿主细胞的基因组中。在这种情况下,病毒基因组被作为DNA序列整合到宿主细胞染色体中,通常由反转录酶介导。这种情况下,病毒基因组不再以自主的形式存在,而是成为宿主基因组的一部分。
coordinates:宿主序列中原病毒区域的1个索引坐标。对于未预测会被整合的病毒,将是NA。
N_genes:序列中编码的基因数量。
Genetic_code:预测的遗传代码。可能的值是:11(细菌和古菌的标准代码),4(重新编码的TGA终止密码子)或15(重新编码的TAG终止密码子)。
virus_score:衡量geNomad对序列是病毒的信心程度。得分接近1.0的序列比得分较低的序列更可能是病毒。
fdr:分类的估计错误发现率(FDR)(即到此行的序列中假阳性的预期比例)。要估计FDRs,geNomad需要分数校准,默认情况下,该校准是关闭的。因此,此列仅包含本例中的NA值。
n_hallmarks:与标志性geNomad标记匹配的基因数量。霍尔马克是以前与病毒功能相关的基因,它们的存在强烈表明该序列确实是一种病毒。
Marker_enrichment:表示序列中病毒标记总富集的分数。该值随着序列中病毒标记数量的增加而变,因此具有多个标记的序列将获得更高的分数。染色体和质粒标记物会降低分数。
taxonomy:病毒基因组的分类。谱系遵循ICTV的VMR编号19中包含的分类法。
1.3 _virus_genes.tsv:
在执行过程中,geNomad使用染色体、质粒和病毒特异性标记的数据库对输入序列编码的基因进行注释。<prefix>_virus_genes.tsv文件总结了已识别病毒编码的基因的注释。
gene:基因的标识符(<sequence_name>_<gene_number>)。通常,基因数以1开头(序列中的第一个基因)。然而,由集成在宿主染色体中间的预后编码的基因可能以不同的数字开始,这取决于它在染色体中的位置。
start:基因的1-索引开始坐标。
end:基因的1索引终止坐标。
length:基因位点的长度(以碱基对为单位)。
strand:编码基因的链。可以是1(正链)或-1(负链)。
gc_content:基因位点的GC含量。
Genetic_code:预测的遗传代码(详见摘要文件解释中的详细信息)。
Rbs_motif:检测到的ribosome结合位点的图案。
marker:最佳匹配geNomad标记。如果该基因与任何标记不匹配,则该值将为NA。
evalue:基因编码的蛋白质与最佳匹配的geNomad标记之间对齐的E值。
bitscore:基因编码的蛋白质与最佳匹配的geNomad标记之间对齐的比特分。
uscg:分配给该基因的标记是否对应于通用单副本基因(UCSG,定义在BUSCO v5中)。这些基因有望在染色体中找到,在质粒和病毒中很少见。可以是1(基因是USCG)或0(基因不是USCG)。
Plasmid_hallmark:分配给该基因的标记是否代表质粒标志。
Virus_hallmark:分配给该基因的标记是否代表病毒标志。
taxid:分配给该基因的标记的分类学标识符(您可以忽略这一点,因为它旨在由geNomad在内部使用)。
taxname:与分配的geNomad标记关联的分类群名称。在这个例子中,我们可以看到注释的蛋白质都是Caudoviricetes的特征(这就是为什么原病毒被分配到这一类)。
annotation_conjscan:如果与基因匹配的标记是共轭相关基因(在CONJscan中定义),此字段将显示哪个CONJscan acession被分配给标记。
annotation_amr:如果与基因匹配的标记符用抗菌素耐药性(AMR)功能(在NCBIfam-AMRFinder中定义)进行注释,此字段将显示哪个NCBIfam cession被分配给标记。
annotation_accessions:一些geNomad标记是功能注释的。此列告诉您Pfam、TIGRFAM、COG和KEGG中的哪些条目被分配给标记。
Annotation_description:描述分配给标记的函数的文本。
这里的一个重要细节是,geNomad标记的主要目的是分类。它们被设计为特定于染色体、质粒或病毒,从而能够区分属于这些类别的序列。因此,您不应该期望每个病毒基因都会用geNomad标记进行注释。如果您想尽可能地注释序列中的基因,您应该使用Pfam或COG等数据库。
1.4 <prefix>_plasmid_summary.tsv、<prefix>_genes.tsv、<prefix>_plasmid.fna和<prefix>_plasmid_proteins.faa:
与其质粒识别相关的数据,这些大多与病毒对应物非常相似。
<prefix>_plasmid_summary.tsv(如下所示)的差异如下:
<prefix>_virus_summary.tsv(坐标和分类)中的特定于病毒的列不存在。
Conjugation_genes列列出了可能参与共轭的基因。重要的是要注意,此类基因的存在不足以判断给定的质粒是共轭的还是可动的。如果您有兴趣识别共轭质粒,我们建议您使用geNomad与CONJscan分析您识别的质粒。
Amr_genes列列出了具有抗菌素耐药性功能的基因。您可以在AMRFinderPlus网站上查看与每次加入相关的特定功能。
参考来源:GitHub - apcamargo/genomad: geNomad: Identification of mobile genetic elements