可能是第一篇汉化PanACoTA教程。。。。（无原理，纯代码，下次补充。。。）

最新推荐文章于 2024-08-20 09:06:53 发布

阿伯·桌·子

最新推荐文章于 2024-08-20 09:06:53 发布

阅读量963

点赞数

文章标签： python

本文链接：https://blog.csdn.net/a7789890/article/details/117135756

版权

本文介绍了PanACoTA，一个用于微生物比较基因组学的Python流水线，它自动化了从下载基因组到系统发育树构建的全过程。通过分析肺炎克雷伯菌的基因组数据集，展示了PanACoTA的效率和适用性，特别是在处理大规模数据时。文章详细描述了使用PanACoTA的步骤，包括环境配置、基因组准备、注释、泛基因组构建、核心基因组确定、多重比对和系统发育树生成。

摘要由CSDN通过智能技术生成

最近，SonicParanoid引入了使用高效且准确的程序mmseqs2来构建全基因组的方法，PPanGGOLiN使用相同的工具提供了一种按频率对全基因组家族进行统计分类的方法（19–21）。最近的一些程序还使用基于图的方法进一步完善了泛基因组，例如PPanGGOLiN和Panaroo（16）。为此，通过这两种工具对319个肺炎克雷伯菌的基因组数据集的分析提供了相似的结果（16）。一些工具，例如PIRATE（22）最近还被开发为在遥远的基因组之间聚集直向同源物。但是，所有这些程序都缺少比较基因组学中必不可少的部分或全部初始和最终步骤，包括下载，质量控制，比对和系统发育推断。这刺激了PanACoTA（带有注释，编码识别，树和相应比对的PAN基因组）的发展。为了利用可公开获得的大量基因组信息，需要六个主要的操作模块。（i）自动收集进化枝的一组基因组。这需要一些质量控制，以避免草稿中含有过多的重叠群。通常也很方便的是检查基因组是否过于冗余，以最大程度地减少计算成本和由于伪复制引起的偏差。另一方面，重要的是要检查基因组之间的关系是否太紧密，以消除因细菌种类（或相关分类组织）而被错误分类的基因组。