MAPQ(Mapping Qualities) 用来表示每条read的比对情况,MAPQ越高,表示比对质量越好,后续可以根据分析需要来进行过滤。
MAPQ 定义
从概率的角度来看,每个read的比对都是一个真实比对的估计,它是一个随机变量,也有可能存在错误。错误的概率可以用 Phred 来衡量。假设一条read的MAPQ的值为 $mQ, $P 表示reads比对错误的概率。
$P = 10 ^ (-$mQ / 10.0);
如果 m Q 的 值 为 30 , 那 么 mQ的值为30,那么 mQ的值为30,那么P(比对错误率) 就是 0.1%。
MAPQ的影响因素
-
基因组重复区域MAPQ会比较低,因为会出现multiple mapping 和 reads聚集的情况;
-
read 中碱基质量值,低质量值的碱基意味着序列很可能是错误的,错误的序列可能会导致错误的比对,所以MAPQ会低;
-
比对算法的敏感性,如果比对算法敏感性差,会造成比对错误,MAPQ低;
-
单双端测序的影响,如果reads两端都可以比对到基因组同一位置,那么比对正确的可能性很大,MAPQ会高;
-
如果MAPQ在30以上,一般是:
a. read 的全部碱基质量值很高;
b. 比对几乎没有mismatch,1-2bp的mismatch有可能是真是存在的变异;
比对算法中MAPQ的实现
这个嘛,我还没有来得及看,先留个坑后面填。。。