最近,SonicParanoid引入了使用高效且准确的程序mmseqs2来构建全基因组的方法,PPanGGOLiN使用相同的工具提供了一种按频率对全基因组家族进行统计分类的方法(19–21)。最近的一些程序还使用基于图的方法进一步完善了泛基因组,例如PPanGGOLiN和Panaroo(16)。为此,通过这两种工具对319个肺炎克雷伯菌的基因组数据集的分析提供了相似的结果(16)。一些工具,例如PIRATE(22)最近还被开发为在遥远的基因组之间聚集直向同源物。但是,所有这些程序都缺少比较基因组学中必不可少的部分或全部初始和最终步骤,包括下载,质量控制,比对和系统发育推断。这刺激了PanACoTA(带有注释,编码识别,树和相应比对的PAN基因组)的发展。为了利用可公开获得的大量基因组信息,需要六个主要的操作模块。(i)自动收集进化枝的一组基因组。这需要一些质量控制,以避免草稿中含有过多的重叠群。通常也很方便的是检查基因组是否过于冗余,以最大程度地减少计算成本和由于伪复制引起的偏差。另一方面,重要的是要检查基因组之间的关系是否太紧密,以消除因细菌种类(或相关分类组织)而被错误分类的基因组。
可能是第一篇汉化PanACoTA教程。。。。(无原理,纯代码,下次补充。。。)
最新推荐文章于 2023-02-02 21:01:00 发布