生信入手:CompareM-平均氨基酸一致性(AAI)进行物种鉴定

平均氨基酸一致性(AAI)是衡量两个基因组中同源蛋白质序列相似度的指标,通过计算同源蛋白质序列中相同位置上氨基酸相同的比例得出。AAI值越高,表明基因组间的同源性越强,通常意味着它们在进化上更接近。AAI在物种分类、进化树构建以及确定微生物物种界限等方面有重要应用。CompareM等工具可用于计算AAI,为比较基因组学提供重要数据支持。

使用CompareM计算AAI的步骤如下:

1. 安装CompareM:  

   mamba install -c bioconda comparem
   或者通过pip安装:
   sudo pip install comparem
   注意:需要独立安装Prodigal和DIAMOND这两个依赖工具。

2. 基于基因组计算氨基酸一致性:

   使用aai_wf流程计算氨基酸一致性:

   comparem aai_wf -c 30 -x fa . aaiwf_out

   其中:

 -c 30:表示使用30个线程进行计算。

  -x fa:表示基因组文件的后缀为`.fa`。

   ./:表示当前目录包含待比较的基因组序列。

aaiwf_out:为输出目录。

3. 基于基因组蛋白计算氨基酸一致性:

  如果基因组已经由氨基酸蛋白质序列表示,使用以下命令:

comparem aai_wf --proteins -c 30 -x gz GTDBr214_479_B.anthracis_gene GTDBr214_479_B.anthracis_gene_aai

其中--proteins指定输入文件是蛋白序列。

4. 结果输出:

成对的AAI统计数据在输出文件./<output_dir>/aai/aai_summary.tsv中提供。该文件由8列组成,具体含义如下:

第1列:第一个基因组的标识符

第2列:第一个基因组中的基因数

第3列:第二个基因组的标识符

第4列:第二个基因组中的基因数

第5列:两个基因组间识别出的同源基因数

第6列:同源基因的平均氨基酸一致性(AAI)

第7列:同源基因AAI的标准差

第8列:两个基因组间的同源分数(OF),定义为同源基因数除以两个基因组中较小的基因数。

通过这些步骤,CompareM可以有效地计算基因组间的AAI,为基因组比较分析提供重要数

示例:左侧,是比较基因组工作流程(compare_genomes comparative genomics workflow)执行的步骤。右侧,是使用四个拟南芥物种通过比较基因组工作流程(compare_genomes workflow)生成的样本输出图,图中有三个部分用字母标记(详见结果解释)。
图片来源:Paril J, Zare T, Fournier-Level A. Compare_Genomes: A Comparative Genomics Workflow to Streamline the Analysis of Evolutionary Divergence Across Eukaryotic Genomes. Curr Protoc.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值