从人类基因组计划开始,到今日将近30年的时间,越来越多的物种基因组被测序发表,这一方面是由于测序技术的快速发展,另一方面也得益于生物信息学算法的不断更新。但在面对复杂基因组时,目前还缺少较为通用的测序策略和组装算法。基于上述背景,本文着重介绍如何确定复杂基因组概况、目前主流复杂基因组测序策略和组装算法等,以期为致力于基因组研究的老师们提供些许帮助。
1如何确定基因组的复杂程度?
复杂基因组指的是不能用常规测序技术和组装算法来直接解析的一类基因组,以重复序列、杂合度和GC含量占比及外源DNA污染程度来衡量物种基因组的复杂程度。一般当物种基因组杂合率大于0.8%、重复序列占比大于60%时(或GC含量小于35%、GC含量大于65%),我们就称之为复杂基因组。我们可通过Survey分析了解基因组的杂合率、重复序列占比、GC含量及污染情况来确定基因组的复杂程度。
Survey指通过大量测序二代小片段数据,借助分析算法来预估基因组大小,杂合率、及重复序列占比,以判断基因组复杂情况,以此确定后续的组装策略及指标等。K-mer分析是基因组Survey评判最常用的方法之一。
K-mer简介:将核酸序列分为包含k个碱基的字符串,即从一段连续的核酸序列中迭代选取长度为K个碱基的序列,若核酸序列长度为L,k-mer长度为K,可以得到L-K+1个k-mers。如图1所示,假设某序列长度为21,设定选取的k-mer长度为7,则得到(21-7+1=15)个7-mers。
![102672a1291b69c77be90713a3ac959a.png](https://img-blog.csdnimg.cn/img_convert/102672a1291b69c77be90713a3ac959a.png)
图1 K-mer简介
物种基因组G的算法:参考Lander-Waterman模型,Kdepth = N*(L-K+1)/G,Knum = (L-K+1)*N (Kdepth为kmer期望深度,kmer深度频率分布遵循泊松分布,因此可将深度分布曲线的峰值作为期望深度。Knum为从reads得到kmer的总数目),则基因组大小G=