一.依赖于参考序列的拼接,在进行对参考序列的比对时,有两类区域reads不能很好的进行比对匹配:
1.原参考序列中存在未知的序列区域,主要为scaffolds之间的连接区域和scaffolds内的gaps区域,多由富含重复序列或极端GC含量等原因造成测序不完整;
2.两个物种之间序列的固有差异区域,包括SNPs,small Indels,large Indels 和inversion等。在上述区域中,无法得到足够覆盖度的contigs序列信息,并造成scaffolding时相应区域的序列缺失。
验证基因组拼接的完整性和准确性,常利用基因组BAC文库或EST测序数据。