4.NGS中的reads mapping
顾名思义,就是将测序的得到的DNA定位在基因组上。
因为二代测序的得到的序列是较短的,reads mapping很好地解决了这个问题。
本质上reads mapping是一个双序列比对问题,但和之前讲的NW和SW的不一样,后者适用于两者长度相差不大的。
现在问题有几个特征:
1.reads和ref的长度有着跨数量级的差异,reads长度通常不超过100bp,而ref基因组通常在上百Mb。
2.数据量,NGS测序产生的数据量达到几百Gb,相当于几十个人的人类基因组。
3.数据质量。在双序列比对中通常假定序列本身不会出错,但是NGS所产生的reads质量参差不齐。
reads可以说是镶嵌到基因组序列中的,对于基因组来说是局部比对,对于reads来说是全局比对,是一个混合型的alignment。
首先对基因