DRAM(Distilling and Refining Annotations of Metabolism,提取和精练代谢注释)是一种用于注释宏基因组组装基因组和VirSorter确定的病毒重叠群的工具。DRAM 使用KEGG、UniRef90、PFAM、dbCAN、RefSeq 病毒、VOGDB和MEROPS注释 MAG(metagenome assembled genomes,宏基因组组装基因组 ) ,也可使用病毒重叠群肽酶数据库以及自定义用户数据库。DRAM 分两个阶段运行。首先是将数据库标识符分配给基因的注释步骤,然后是将这些注释整理成有用的功能类别的精练步骤。此外,病毒重叠群在此期间进一步分析以识别潜在的 AMG(auxiliary metabolic genes,辅助代谢基因)。这是通过分配一个辅助分数和标志来完成的,这些标志代表基因既是代谢性又是病毒性的置信度。
DRAM-v 依赖 VIRSorter 的输出来注释病毒重叠群并确定潜在的 AMG。它将来自 VIRSorter 和 VIRSorter_affi-contigs.tab 文件的预测病毒重叠群作为输入。预测的病毒重叠群以单个 fasta 文件的形式提供。这可以是来自预测的病毒重叠群输出的重叠群子集。fasta 是通过连接来自 VIRSorter 的预测病毒序列创建的。所有重叠群首先使用与 DRAM 中相同的管道进行处理,并在 NCBI RefSeq 中添加带有所有病毒蛋白的 BLAST 类型注释。
注释后,为每个基因分配辅助分数。辅助分数在 1 到 5 的范围内,代表基因起源于病毒的置信度,其中 1 分代表确信为病毒的基因,5 分代表用户在将其视为病毒基因时应谨慎对待的基因。根据来自 VIRsorter_affi-contigs.tab 文件的侧翼病毒蛋白质簇的类别分配辅助分数。
辅助评分为 1,在左侧和右侧至少有一个标志基因(类别为 0 或 3 的 VIRSorter 蛋白簇)。
辅助评分为 2,基因在一侧具有标志性基因而在另一侧具有病毒样基因(具有类别 1 或 4 的 VIRSorter 蛋白簇)时。
辅助评分为3分,分配给两侧具有病毒样基因的基因。
辅助评分为4分,一侧侧有病毒样或标志性基因,另一侧没有病毒样或标志性基因,以及所有属于具有三个或更多具有非病毒代谢功能的相邻基因的延伸的基因的一部分。
辅助评分为5,对于没有病毒样或标志性基因的重叠群上的基因和重叠群末端的基因。
分配了可能改变对病毒基因的置信度的各种标志。病毒标志 (V) 被分配给基因已分配了一个 VOGDB 标识符和复制或结构类别。如果基因以汇总代谢形式存在,则指定代谢标志 (M)。已知 AMG 标志 (K) 在基因已用代表来自先前识别的 AMG 的功能的数据库标识符,并且当基因数据库标识符是先前识别的 AMG 并且已被分配时,分配实验验证标志 (E)经实验证实可影响宿主代谢。当基因被赋予与病毒宿主附着和进入相关的标识符时,就会给出附着标志 (A)。当基因在重叠群末端的 5000 个碱基内时,会给出近重叠群末端标志 (F)。当基因位于包含转座子的重叠群上时,会给出转座子标志 (T)。当连续三个基因被赋予代谢标志而不是病毒(V)或病毒附着和进入(A)标志时,就会给出细菌标志 (B)。
DRAM-v 注释的提炼主要基于潜在 AMG 的检测。默认情况下,如果辅助分数小于 4、已分配 M 标志、未分配 A、V 或 T 标志,则该基因被视为潜在 AMG。用户可以更改标志和最小辅助分数阈值。提取 DRAM-v 注释以创建病毒重叠群摘要和潜在的 AMG 摘要。病毒重叠群摘要是一个表格,其中包含每个重叠群和有关重叠群的信息。包括病毒的 VIRSorter 类别,如果病毒是环形的,如果病毒是原噬菌体,病毒中基因的数量、沿着重叠群的链开关数量(如果重叠群上存在转座酶)以及潜在 AMG 的数量。还总结了潜在的 AMG,给出了与总结代谢形式中发现的每个相关的代谢信息。DRAM-v 进一步总结了显示所有病毒重叠群的潜在 AMG、每个重叠群中潜在 AMG 的数量以及每个 AMG 所属模块的热图。
软件安装
codna安装
使用提供的 环境.yaml 文件。
wget https://raw.githubusercontent.com/shafferm/DRAM/master/environment.yaml
conda env create -f environment.yaml -n DRAM
如果使用这种安装方法,那么所有进一步的步骤都应该在新创建的 DRAM 环境中运行,或者使用可执行文件的完整路径,与活动环境一起使用以查找这些,例如。.可以使用以下命令激活此环境
conda activate DRAM
您现在已安装 DRAM,并已准备好设置数据库。
设置数据库
如果您已经安装并设置了以前版本的 dram,并且想要使用旧数据库,那么您可以通过两个步骤来完成。
#激活旧的 DRAM 环境,并保存旧配置:
conda activate my_old_env
DRAM-setup.py export_config > my_old_config.txt
#激活新的 DRAM 环境,并导入旧数据库
conda activate my_new_env
DRAM-setup.py import_config --config_loc my_old_config.txt
重新配置数据库
DRAM-setup.py prepare_databases --output_dir DRAM_data --kegg_loc kegg.pep
#没有kegg权限时
DRAM-setup.py prepare_databases --output_dir DRAM_data
结果解读
1. 读liquor(product.html)
DRAM-v liquor是对已在带注释的病毒重叠群中检测到的潜在 AMG (pAMG) 的总结。像 DRAM liquor一样,它以 HTML 文件的形式出现,liquor.html(product.html)
它是完全可移植的,可以在任何网络浏览器中打开。 在该热图中,y 轴由所有被注释的病毒重叠群组成,x 轴是至少一个病毒重叠群中存在的各种功能。最左侧的列是该病毒重叠群中存在的 pAMG 总数。这是因为给定行中的更多细胞可能被点亮为真,表明存在该功能,而不是在该病毒重叠群中发现的 pAMG 总数。这是因为每个基因可能有多个注释,每个注释可能涉及不同的功能,或者因为单个注释与多个功能相关联。
热图的后续部分代表来自馏出物的代谢和其他功能的每个主要类别,每列都是一个单独的功能。与 DRAM liquor一样,热图也是交互式的,将鼠标悬停在某个函数上会告诉您编码该函数的病毒重叠群上的基因以及分配给该基因的注释。
DRAM-v 的主要结论是
1) 有多少病毒重叠群至少存在一个 pAMG,如热图中的病毒数量所示。
2) 每个病毒重叠群中存在的 pAMG 数量,如热图最左侧列中的数字所示。
3) 病毒重叠群中存在的 pAMG 的功能,如热图的点亮部分所示。和
4) 病毒重叠群中任何 pAMG 的频率,这可以表明系统中噬菌体使用该功能的频率。
2. 读 distillate
虽然热图可以让您快速概览已注释的 pAMG,但您可能需要有关这些 pAMG 或已注释病毒的更多详细信息。这可以通过查看amg_summary.tsv
和viral_genome_summary.tsv(vMAG_stats.tsv)
文件来完成。
AMG 摘要(amg_summary.tsv
)提供了有关 pAMG 的代谢细节
该文件amg_summary.tsv
更详细地查看了您的注释病毒重叠群中存在的 pAMG。每行代表一个与分配给病毒重叠群中基因的注释相关的函数。这意味着一个基因可以出现在多行中,因为每个基因可能有多个注释,每个注释可能涉及不同的功能,或者因为单个注释与多个功能相关联。这意味着 AMG 汇总表中的总行数不是您注释的 pAMG 总数,而是这些 pAMG 代表的函数数。
AMG 摘要的列提供有关该基因的信息、注释的 DRAM 馏出物类别和 DRAM-v 信息,说明为什么将基因称为 pAMG。前两列给出了被称为 pAMG 的基因和该基因所在的支架。下一列提供来自 DRAM 馏出物的有关与该 AMG 相关的功能的所有级别的信息。最后两列给出了由 DRAM-v 分配的辅助分数和 AMG 标志。请记住,较低的辅助分数表明该基因具有病毒性。
病毒基因组摘要(vMAG_stats.tsv
)提供有关每个病毒重叠群的详细信息
在vMAG_stats.tsv
每个病毒重叠群中是一条线。每行包含MIUViG所需的所有信息。这包括 VirSorter 信息、基因计数、找到的链转换和每个 VOGDB 主要类别的基因计数以及其他附加信息。
3. 读原始注释(Raw)
在原始注释中是大多数基因组注释器返回的文件类型。这范围从支架和基因组特征文件到带有所有记录注释的表格。如果蒸馏物和liquor未涵盖您的新陈代谢或感兴趣的基因功能,或者您需要比这些级别的摘要提供的更多细节,这些文件就是您想要深入研究的文件。
注释主表(annotations.tsv
)
该文件annotations.tsv
包含所有预测的开放阅读框架的所有注释。每行是一个单独的基因,所有列都给出注释信息。第一列给出指定的基因名称,随后的列给出 FASTA 文件的名称和调用该基因的支架的名称。接下来是支架上的基因位置(1-端)、核苷酸起始位置、核苷酸结束位置和基因的链化程度。之后是注释的等级。等级是根据Daly 等人(2016年)概述的方法分配等级的。简而言之,如果对 KEGG 基因有相互最佳命中,则注释被赋予 A 等级,如果对 UniRef90 基因有相互最佳命中,则注释被赋予 B等级,如果仅对 KEGG 或 UniRef90 有正向命中,则注释被赋予 C等级,如果只有对 PFAM 的命中,则为 D等级,如果没有对 KEGG、UniRef90 或 PFAM 的注释,则为 E等级。
随后的列给出了注释信息。对于具有 BLAST 样式的数据库(使用MMseqs2完成)搜索具有数据库命中 ({database}_hit) 的列,如果命中是倒数最佳命中 ({database}_RBH),则匹配的百分比标识 ({database}_identity) )、命中的位得分 ({database}_bitScore) 和命中的 E 值 ({database}_eVal)。如果数据库具有 DRAM-v 提取的特定标识符,则存在附加列 ({database}_id)。这些是在注释的提炼中使用的标识符。
对于使用 HMM(使用HMMER)搜索的数据库,只给出了命中列表。命中由分号分隔,方括号中的每个命中之后是与命中关联的标识符。标识符是在注释的提炼中使用的。
之后是 MHC 计数 ( heme_regulatory_motif_count
)。这是CXXCH
该基因中存在的次数的计数。铁还原微生物使用多血红素 c 型细胞色素 (MHC) 作为电子转移最后一步的末端还原酶。我们注意到,这是识别 MHC 的第一步,因此为了进一步验证 MHC 的潜力,用户应该查看注释(例如硝酸还原酶不应被视为 MHC),上传到 psortB 以获取位置信息,并进行序列相似性网络分析相对于已知的 MHC。
DRAM-v 注释中的最后一列提供了额外的病毒信息。首先是基因的 VirSorter 类别。如果 VirSorter 中未预测该基因,则该单元格将留空,如果该基因已由 VirSorter 预测但未指定类别,则该单元格将包含一个-
. 接下来是辅助分数,最后是 DRAM-v 分配的标志。
FASTA 文件
三个 FASTA 文件由 DRAM-v 生成:scaffolds.fna
,genes.fna
和genes.faa
.。scaffolds.fna
包含来自所有输入 MAG 的所有脚手架,并具有重命名的格式以匹配注释表和输出 gff 文件genes.fna是
所有 MAG 的所有基因的核苷酸序列genes.faa是
所有 MAG 的所有基因的氨基酸序列
基因组特征文件
注释以两种格式给出,可用于后续分析或可视化。这些文件包含所有带有注释的开放阅读框架以及 tRNA 和 rRNA。genes.gff
文件包含来自所有 MAG 的所有基因并与scaffolds.fna
文件匹配。
有一个名为scaffolds.gbk
的文件(genbank文件夹),它是一个包含所有基架的多代数据库文件。这可以通过基因组查看器(如IGV或geneious)进行查看。
tRNA 和 rRNA 文件
tRNA 总结在 中tRNAs.tsv
,rRNA 总结在 中rRNAs.tsv
。
参考文献