CheckM-Options-zn

最新推荐文章于 2024-05-27 18:55:15 发布

cling5899

最新推荐文章于 2024-05-27 18:55:15 发布

阅读量2.7k

点赞数

分类专栏：日常学习生物信息学宏基因组文章标签：其他学习

本文链接：https://blog.csdn.net/dunghill_cock/article/details/124298067

版权

CheckM是一种用于评估宏基因组组装bin质量的工具，通过比较单拷贝基因集来计算完整度和污染度。推荐使用lineage_wf方法，涉及的命令包括checkm lineage_wf -h等。其工作流程包括背景、建立进化树、计算质量指标等，常用的质量标准是污染度<10%和完整度>80%。

摘要由CSDN通过智能技术生成

CheckM的GitHub官网

CheckM英文帮助文档

参考链接

CheckM (宏)基因组质量评估

国家微生物科学数据中心-CheckM使用说明内有视频及PDF讲解，还可线上测试。

Background

CheckM首先基于完整的已测序细菌基因组作为参考基因组，构建基因组的进化树，构建每个谱系（可以理解为一类物种）的单拷贝基因集（管家基因）（single copy genes，SCGs，为什么是单拷贝？因为这样可以开展基因组混合程度、污染程度等的评估）。在使用时，将我们的Bin与参考基因组一起建树，基于进化关系找到Bin的参考物种，然后结合参考物种的单拷贝基因集，计算两个重要指标

Completeness，完整度，Bin基因与对应SCGs相比，基因数量是否完整，取值[0,100%]，数值越大，表示Bin质量越好； Contamination，污染度，Bin基因包含多个物种的SCGs，即一个Bin存在多个物种的程度，取值[0,100%]，数值越小，表示Bin质量越好。

获得每个bin的污染度、完整度信息后，挑选高质量的bin进行物种、功能注释。再后续分析中，并没有固定标准。需要的数量多，则放宽阈值；需要的数量少，则提升阈值。其中，最常用的指标是污染度小于10%，且完整度大于80%。大家可以在这个基础上上下调整。

得到了组装的bin的数据，CheckM下载完成，开始分析

CheckM的工作流程

lineage-specific（世系特异性）【推荐方法】

checkm lineage_wf <bin folder> <output folder>
##根据基因组在参考基因组发育树中的位置，来推断它的single-copy基因集，需要有checkM的数据库

taxonomic-specific（物种分类特异性）

checkm taxonomy_wf <rank> <taxon> <bin folder> <output folder> <rank>: phylum; <taxon> : Cyanobacteria
##自己知道自己的数据来自哪个门，什么科的

custom marker genes（自行指定基因maker）

checkm analyze <custom HMM file> <bin folder> <output folder>
checkm qa <custom HMM file> <output folder>
##自己预测了基因maker，<custom HMM file>就是预测的结果
<

最低0.47元/天解锁文章

cling5899

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
CheckM-Options-zn

CheckM的GitHub官网CheckM英文帮助文档参考链接CheckM (宏)基因组质量评估国家微生物科学数据中心-CheckM使用说明内有视频及PDF讲解，还可线上测试。BackgroundCheckM首先基于完整的已测序细菌基因组作为参考基因组，构建基因组的进化树，构建每个谱系（可以理解为一类物种）的单拷贝基因集（管家基因）（single copy genes，SCGs，为什么是单拷贝？因为这样可以开展基因组混合程度、污染程度等的评估）。在使用时，将我们的Bin与参考基因组一.
复制链接

扫一扫