平均氨基酸一致性(AAI)是衡量两个基因组中同源蛋白质序列相似度的指标,通过计算同源蛋白质序列中相同位置上氨基酸相同的比例得出。AAI值越高,表明基因组间的同源性越强,通常意味着它们在进化上更接近。AAI在物种分类、进化树构建以及确定微生物物种界限等方面有重要应用。CompareM等工具可用于计算AAI,为比较基因组学提供重要数据支持。
使用CompareM计算AAI的步骤如下:
1. 安装CompareM:
mamba install -c bioconda comparem
或者通过pip安装:
sudo pip install comparem
注意:需要独立安装Prodigal和DIAMOND这两个依赖工具。
2. 基于基因组计算氨基酸一致性:
使用aai_wf流程计算氨基酸一致性:
comparem aai_wf -c 30 -x fa . aaiwf_out
其中:
-c 30:表示使用30个线程进行计算。
-x fa:表示基因组文件的后缀为`.fa`。
./:表示当前目录包含待比较的基因组序列。
aaiwf_out:为输出目录。
3. 基于基因组蛋白计算氨基酸一致性:
如果基因组已经由氨基酸蛋白质序列表示,使用以下命令:
comparem aai_wf --proteins -c 30 -x gz GTDBr214_479_B.anthracis_gene GTDBr214_479_B.anthracis_gene_aai
其中--proteins指定输入文件是蛋白序列。
4. 结果输出:
成对的AAI统计数据在输出文件./<output_dir>/aai/aai_summary.tsv中提供。该文件由8列组成,具体含义如下:
第1列:第一个基因组的标识符
第2列:第一个基因组中的基因数
第3列:第二个基因组的标识符
第4列:第二个基因组中的基因数
第5列:两个基因组间识别出的同源基因数
第6列:同源基因的平均氨基酸一致性(AAI)
第7列:同源基因AAI的标准差
第8列:两个基因组间的同源分数(OF),定义为同源基因数除以两个基因组中较小的基因数。
通过这些步骤,CompareM可以有效地计算基因组间的AAI,为基因组比较分析提供重要数
示例:左侧,是比较基因组工作流程(compare_genomes comparative genomics workflow)执行的步骤。右侧,是使用四个拟南芥物种通过比较基因组工作流程(compare_genomes workflow)生成的样本输出图,图中有三个部分用字母标记(详见结果解释)。
图片来源:Paril J, Zare T, Fournier-Level A. Compare_Genomes: A Comparative Genomics Workflow to Streamline the Analysis of Evolutionary Divergence Across Eukaryotic Genomes. Curr Protoc.