在测序一个新物种时,首先需要对该物种的基因组结构有所了解,包括以下几个内容:
基因组大小
重复片段大小
杂合度大小
基因组越大,杂合度也大,重复片段越大,该物种的组装难度就越大。通常我们会通过genome survery分析,对以上几个指标进行简单评估,核心就是通过kme 分布来进行评估。
首先我们通过quinoa的基因组(Zou et al. 2017)来认识kmer所表示的基因组的基本知识。
对于不同的基因组杂合度,kmer分布如下
当杂合度为0.001时,只有一个峰;当杂合度为0.01和0.02时,都有2个峰,一个主峰,代表的是基因组峰,另一个小峰是代表基因组具有杂合度。通过探究杂合度和kmer分布图之间的关系,可以通过kmer分布来评估杂合度。
GenomeScope 软件可以根据kmer分布,评估基因组大小和杂