geNomad输出文件解读

#geNomad的主要目标是在测序数据(分离物、元基因组和元转录组)中识别病毒和质粒。它还提供了一些额外的功能,可以帮助进行分析:病毒基因组的分类;识别集成在宿主基因组中的病毒(proviruses);蛋白质的功能注释#

VIBRANT输出文件共含6个目录、6个log文件:

目录1-_summary

包含了汇总了整个分析流程结果的文件。如果你只想获取输入中识别出的质粒和病毒的列表,这就是你需要的内容。

1.1 _virus.fna和_virus_proteins.faa:

分别是已识别的病毒序列及其蛋白质的FASTA文件。

1.2 _virus_summary.tsv:

seq_name:输入FASTA文件中序列的标识符。Proviruses将具有以下名称方案:<sequence_identifier>|provirus_<start_coordinate>_<end_coordinate>。

length:序列的长度(或原病毒,在集成病毒的情况下)。

topology:病毒序列的拓扑学。可能的值是:无终端重复、DTR(直接终端重复)、ITR(反向终端重复)或Provirus(集成在宿主基因组中的病毒)。

这里解释一下这些拓扑学类型:

  1. 无终端重复(No terminal repeats):指病毒序列在两个端部没有重复的序列。这意味着病毒基因组的两端没有相同的序列。这种情况下,病毒可能以一种非典型的方式复制和维持其基因组完整性。

  2. DTR(直接终端重复,Direct Terminal Repeats):指病毒序列的两个端部具有相同的重复序列。这种结构通常与线性DNA病毒相关,其中病毒基因组在两个端部具有相同的序列,并且这些序列在复制过程中起到了关键作用。

  3. ITR(反向终端重复,Inverted Terminal Repeats):指病毒序列的两个端部具有相同的序列,但是这些序列以相反的方向出现。这种结构也常见于一些线性DNA病毒,它们的两端具有相似的序列,但是方向相反。

  4. Provirus(集成病毒,Provirus):指病毒基因组已经整合到宿主细胞的基因组中。在这种情况下,病毒基因组被作为DNA序列整合到宿主细胞染色体中,通常由反转录酶介导。这种情况下,病毒基因组不再以自主的形式存在,而是成为宿主基因组的一部分。

coordinates:宿主序列中原病毒区域的1个索引坐标。对于未预测会被整合的病毒,将是NA。

N_genes:序列中编码的基因数量。

Genetic_code:预测的遗传代码。可能的值是:11(细菌和古菌的标准代码),4(重新编码的TGA终止密码子)或15(重新编码的TAG终止密码子)。

virus_score:衡量geNomad对序列是病毒的信心程度。得分接近1.0的序列比得分较低的序列更可能是病毒。

fdr:分类的估计错误发现率(FDR)(即到此行的序列中假阳性的预期比例)。要估计FDRs,geNomad需要分数校准,默认情况下,该校准是关闭的。因此,此列仅包含本例中的NA值。

n_hallmarks:与标志性geNomad标记匹配的基因数量。霍尔马克是以前与病毒功能相关的基因,它们的存在强烈表明该序列确实是一种病毒。

Marker_enrichment:表示序列中病毒标记总富集的分数。该值随着序列中病毒标记数量的增加而变,因此具有多个标记的序列将获得更高的分数。染色体和质粒标记物会降低分数。

taxonomy:病毒基因组的分类。谱系遵循ICTV的VMR编号19中包含的分类法。

1.3 _virus_genes.tsv:

在执行过程中,geNomad使用染色体、质粒和病毒特异性标记的数据库对输入序列编码的基因进行注释。<prefix>_virus_genes.tsv文件总结了已识别病毒编码的基因的注释。

gene:基因的标识符(<sequence_name>_<gene_number>)。通常,基因数以1开头(序列中的第一个基因)。然而,由集成在宿主染色体中间的预后编码的基因可能以不同的数字开始,这取决于它在染色体中的位置。

start:基因的1-索引开始坐标。

end:基因的1索引终止坐标。

length:基因位点的长度(以碱基对为单位)。

strand:编码基因的链。可以是1(正链)或-1(负链)。

gc_content:基因位点的GC含量。

Genetic_code:预测的遗传代码(详见摘要文件解释中的详细信息)。

Rbs_motif:检测到的ribosome结合位点的图案。

marker:最佳匹配geNomad标记。如果该基因与任何标记不匹配,则该值将为NA。

evalue:基因编码的蛋白质与最佳匹配的geNomad标记之间对齐的E值。

bitscore:基因编码的蛋白质与最佳匹配的geNomad标记之间对齐的比特分。

uscg:分配给该基因的标记是否对应于通用单副本基因(UCSG,定义在BUSCO v5中)。这些基因有望在染色体中找到,在质粒和病毒中很少见。可以是1(基因是USCG)或0(基因不是USCG)。

Plasmid_hallmark:分配给该基因的标记是否代表质粒标志。

Virus_hallmark:分配给该基因的标记是否代表病毒标志。

taxid:分配给该基因的标记的分类学标识符(您可以忽略这一点,因为它旨在由geNomad在内部使用)。

taxname:与分配的geNomad标记关联的分类群名称。在这个例子中,我们可以看到注释的蛋白质都是Caudoviricetes的特征(这就是为什么原病毒被分配到这一类)。

annotation_conjscan:如果与基因匹配的标记是共轭相关基因(在CONJscan中定义),此字段将显示哪个CONJscan acession被分配给标记。

annotation_amr:如果与基因匹配的标记符用抗菌素耐药性(AMR)功能(在NCBIfam-AMRFinder中定义)进行注释,此字段将显示哪个NCBIfam cession被分配给标记。

annotation_accessions:一些geNomad标记是功能注释的。此列告诉您Pfam、TIGRFAM、COG和KEGG中的哪些条目被分配给标记。

Annotation_description:描述分配给标记的函数的文本。

这里的一个重要细节是,geNomad标记的主要目的是分类。它们被设计为特定于染色体、质粒或病毒,从而能够区分属于这些类别的序列。因此,您不应该期望每个病毒基因都会用geNomad标记进行注释。如果您想尽可能地注释序列中的基因,您应该使用Pfam或COG等数据库。

1.4 <prefix>_plasmid_summary.tsv、<prefix>_genes.tsv、<prefix>_plasmid.fna和<prefix>_plasmid_proteins.faa:

与其质粒识别相关的数据,这些大多与病毒对应物非常相似。

<prefix>_plasmid_summary.tsv(如下所示)的差异如下:

<prefix>_virus_summary.tsv(坐标和分类)中的特定于病毒的列不存在。

Conjugation_genes列列出了可能参与共轭的基因。重要的是要注意,此类基因的存在不足以判断给定的质粒是共轭的还是可动的。如果您有兴趣识别共轭质粒,我们建议您使用geNomad与CONJscan分析您识别的质粒。

Amr_genes列列出了具有抗菌素耐药性功能的基因。您可以在AMRFinderPlus网站上查看与每次加入相关的特定功能。

参考来源:GitHub - apcamargo/genomad: geNomad: Identification of mobile genetic elements

  • 13
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值