参考链接
国家微生物科学数据中心-CheckM使用说明内有视频及PDF讲解,还可线上测试。
Background
CheckM首先基于完整的已测序细菌基因组作为参考基因组,构建基因组的进化树,构建每个谱系(可以理解为一类物种)的单拷贝基因集(管家基因)(single copy genes,SCGs,为什么是单拷贝?因为这样可以开展基因组混合程度、污染程度等的评估)。在使用时,将我们的Bin与参考基因组一起建树,基于进化关系找到Bin的参考物种,然后结合参考物种的单拷贝基因集,计算两个重要指标
Completeness,完整度,Bin基因与对应SCGs相比,基因数量是否完整,取值[0,100%],数值越大,表示Bin质量越好; Contamination,污染度,Bin基因包含多个物种的SCGs,即一个Bin存在多个物种的程度,取值[0,100%],数值越小,表示Bin质量越好。
获得每个bin的污染度、完整度信息后,挑选高质量的bin进行物种、功能注释。再后续分析中,并没有固定标准。需要的数量多,则放宽阈值;需要的数量少,则提升阈值。其中,最常用的指标是污染度小于10%,且完整度大于80%。大家可以在这个基础上上下调整。
得到了组装的bin的数据,CheckM下载完成,开始分析
CheckM的工作流程
lineage-specific(世系特异性)【推荐方法】
checkm lineage_wf <bin folder> <output folder>
##根据基因组在参考基因组发育树中的位置,来推断它的single-copy基因集,需要有checkM的数据库
taxonomic-specific(物种分类特异性)
checkm taxonomy_wf <rank> <taxon> <bin folder> <output folder> <rank>: phylum; <taxon> : Cyanobacteria
##自己知道自己的数据来自哪个门,什么科的
- custom marker genes(自行指定基因maker)
checkm analyze <custom HMM file> <bin folder> <output folder>
checkm qa <custom HMM file> <output folder>
##自己预测了基因maker,<custom HMM file>就是预测的结果
<