使用CompareM计算基因组氨基酸频率(aa usage)和基因组间的平均核苷酸一致性AAI【安装和实例】

CompareM介绍

CompareM 是一个支持执行大规模比较基因组分析的软件工具包。它为一组基因组(例如,氨基酸同一性)和单个基因组(例如,密码子使用情况)提供统计数据。为了能够处理数千个基因组,计算密集型任务提供了并行化实现。常见的工作流程以单一方法提供,以便用户容易采用,并为有经验的用户提供了更细粒度的接口,以利用特定功能。CompareM 是开源的,根据 GNU 通用公共许可证(版本 3)发布。

功能

比较基因组统计:
基因组间的平均氨基酸一致性(AAI)
通过计算查询基因组与参考数据库之间的AAI进行分类学分类

基因组使用模式:
密码子使用
氨基酸使用
对 k ≤ 8 的 kmer 使用(例如,四核苷酸)
终止密码子使用

其他:
用于识别水平基因转移(LGT)的二核苷酸和密码子使用模式
使用不相似性矩阵、层次聚类树和热图进行数据探索

安装

compareM依赖的python环境:3.6
**注意:**本人第一次安装是在python=3.11环境,安装成功运行时,提示错误:RecursionError: maximum recursion depth exceeded while calling a Python object。

conda create -n comparem python=3.6
conda activate comparem
conda install comparem
comparem -h

使用

1. 计算氨基酸使用

comparem aa_usage -h

usage: comparem aa_usage [-h] [–counts] [-x FILE_EXT] [-c CPUS] [–silent]
protein_gene_files output_file

Calculate amino acid usage within each genome.

positional arguments:
protein_gene_files input files with genes in amino acid space
output_file output file indicating amino acid usage for each
genome

optional arguments:
-h, --help show this help message and exit
–counts output raw counts instead of frequencies
-x, --file_ext FILE_EXT
extension of files to process (default: faa)
-c, --cpus CPUS number of CPUs to use (default: 1)
–silent suppress output


$ comparem aa_usage 9phylum_244.bins comparem.out
[2025-01-10 09:43:17] INFO: CompareM v0.1.2
[2025-01-10 09:43:17] INFO: comparem aa_usage 9phylum_244.bins comparem.out
[2025-01-10 09:43:18] INFO: Calculating amino acid usage for each genome:
  Finished processing 244 of 244 (100.00%) genomes.
[2025-01-10 09:44:34] INFO: Amino acid usage written to: comparem.out

输入文件protein_gene_files(9phylum_244.bins),是需要计算氨基酸usage的基因组地址列表
输出文件,将所有基因组的结果重定向到一个文件。
compareM aa_usage结果

2. 计算核苷酸一致性

github:conmpareM
ANI AAI TETRA Mash比较基因组

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值