讨厌又迷人的reads去重复
https://www.jianshu.com/p/5781e7d74c40
太长不看系列
RNA-seq一般不去重复
ChIP-seq一般去重复
call SNP一般去重复
万事无绝对,还需参考起始量和PCR扩增数判断是否去重复。reads mapping覆盖均匀度可以判断是否需要去重复。
PCR去重工具首选Picard
根源上解决去重复问题:起始量高,循环数少,reads能长不短,能双端不单端
PCR重复的危害
理论上来讲,不同的序列在进行PCR扩增时,扩增的倍数应该是相同的。但是由于聚合酶的偏好性,PCR扩增次数过多的情况下,会导致一些序列持续扩增,而另一些序列扩增到一定程度后便不再进行,也就是我们常说的PCR偏好性。
当我们做RNA-seq时,我们所得到的reads覆盖度通常是不均匀的(由于不同的基因表达水平不同),如果我们不加考虑的直接remove duplicate,将会导致许多重要信息的丢失。