何谓K-mer
所谓Kmer,即为一段长度为k的DNA片段,是由测序reads剪切一部分得到的。k为一个奇数,k=几,就为几mer。
比如:我的测序reads长度为100bp,我将这100bp打断成17bp的短片段,打断后的17bp段片段就叫17mer,可以获得(100-17+1)条k-mer序列。
Table1 k-mers for GTAGAGCTGT.
k | k-mers |
---|---|
1 | G,T,A,G,A,G,C,T,G,T |
3 | GTA,TAG,AGA,GAG,AGC,GCT,CTG,TGT |
5 | GTAGA,TAGAG,AGAGC,GAGCT,AGCTG,GCTGT |
7 | GTAGAGC,TAGAGCT,AGAGCTG,GAGCTGT |
9 | GTAGAGCTG,TAGAGCTGT |
不同reads间的重叠长度不均匀,而相邻k-mers有且仅有一个碱基差异。
K-mer的作用
- 利用k-mer拼接出Contig。
Contig的长度与k值的大小密切相关。k值越大,k-mers能跨过更多长度较短的重复序列,有利于Contig的组装,何事都有两面,k值越大,得到的k-mers的数量会越少,k-mers彼此相连,建立感情的机会就越少,反而不利于Contig的组装。在实际的分析中,需要根据物种基因组特征、测序数据的大小等等因素综合考虑,反复尝试。
Figure1 General workflow of the de novo assembly of a whole genome.
上图展示的是全基因组de nove组装的流程。
- 识别测序错误、杂合等位基因和重复序列的reads。
Figure2 K-mer histogram.
上图称为K-mer直方图,横轴是指K-mer深度,D(k);纵轴是指D(k)的频率,f(D(k))。怎么来理解这张图呢?
举个例子,一组K-mers由K={ATT,ATA,GTG,GCA,GCA,CAT,CAT,TAT,TAT,TAT,TAT}组成,f(D(k))的计算为:f(1)=3 {ATT,ATA,GTG}, f(2)=4 {GCA,GCA}和{CAT,CAT} , f(3)=0, f(4)=4 {TAT,TAT,TAT,TAT}。
在测序深度足够的情况下,理想的K-mer直方图呈现正态分布(蓝色曲线)。存在测序错误的reads,在直方图中呈指数递减的曲线(红色曲线)。杂合等位基因产生的小峰出现在主峰下方(黄色曲线)。由于重复结构(repetitive structures)和拷贝获得区域(copy-gained regions )的存在,会在主峰的右侧出现小峰(绿色、紫色曲线)。
- 通过K-mer估计基因组大小及杂合度。
可以通过测序深度,reads长度以及K-mer的深度和大小来估计基因组大小。
D = D ’ l D k − m e r = D