N50定义比较绕口,有一种只可意会不可言传的感觉,所以索性看图
N50和NG50
假设一个基因组的大小为10,但是这个值只有神知道,你得到的信息就是组装后有3个contig,长度分别为"3,4,1,1",所以组装总长度为9。
为了计算N50,我们需要先把contig从大到小排列,也就是"4,3,1"。
然后先看最大的contig,长度是4,他的长度是不是超过组装总大小的一半了吗?如果是,那么N50=4, 4 < 4.5, 不是。
那么在此基础上加上第二长的contig,也就是4+3=7, 是不是超过一半了?7>4.5, 那么N50=3.
因此,N50的定义可以表述为"使得累加后长度超过组装总长度一半的contig的长度就是N50"。