原因:碱基不平衡导致,在照片重叠后,难以通过光的强度来进行空间校正
测定混合微生物群的16S的若干个片段,从其可变区的序列来进行菌落组成分序,已是很常用的实验方法。
自从MiSeq测序平台推出PE300的测序方式之后,用PE300来测16S的V1、V2、V3区,已成了最常用的菌落分析手段。
但是每次我提醒用户:在做16S文库测序的上机时,建议加入70%的PhiX文库。用户都会感到不解:为什么要浪费这70%的测序通量?
这还要从Illumina公司的测序原理说起:
Illumina的测序根本原理是用4种颜色荧光基团标记4种dNTP。
在显微扫描镜下,通过对4种颜色的荧光进行分别扫描,得到4张照片,每张照片对应于一种颜色的荧光。
把4张照片进行对比,把各张照片上的光点重合,计算每个光点的光的颜色强度,倒过来推算出这个点是哪种荧光基团,进尔再推算出这个点是哪种碱基。
但请注意,因为这4张照片都是纳米级的分辨率,而测序过程中芯片是移动的,所以每次拍照多少存在一定程度的空间偏差,如上图所示。这就需要进行空间校正。
文库复杂度不够高带来的影响:
如果是文库的复杂度足够高,也就是在一个测序循环中,A/C/G/T四种碱基的比例较接近于各25%,那么4张照片上都会有足够多的明亮的光点,可供空间校正之用。
但是如果文库的复杂度不够高,典型的例子就是PCR扩增产物,比如说第一个循环,99%的 碱基都是A,那么C/G/T三种碱基加起来也只有1%。这就导致C/G/T这三张照片都很暗,上面没有足够多的光点可供测序仪来分辨,更难于做空间校正。 测序仪就会把大多数无法准确分辨的点给舍弃。
最终的结果就是:测序得到的有效数据量(PF data,Pass Filter data)很少,而且数据的质量(Q值)也偏低。
上述的原因,让Illumina的MiSeq和HiSeq 2000/2500在测复杂度低的文库(PCR扩增文库、Bisulfite处理的甲基化文库、简化基因组文库等)时,如果没有加入弥补的方法,软件就不 能很好识别的光点,导致最后的有效数据量减少、测序数据质量也偏低。
目前的解决方案是:
在测低复杂度的文库时,掺入一定量的高复杂度文库。最常用的掺入文库是Illumina出品的PhiX文库,也有些实验室会用哺乳类动物的基因组文库来增加文库的复杂度,效果是一样的。
PhiX文库有以下的特点:
PhiX文库中GC含量约为45%,是碱基比例较为平衡的样本。
PhiX DNA就是ΦX174噬菌体的DNA,其基因组的长度是4kb略多,其序列已清楚地被测定。
PhiX DNA文库没有Index,所以在样本Demultiplex的过程中,被挪到undetermined的文件中,不会与别的有Index的文库相混。
PhiX的序列是已知的,所以,在测序过程中,仪器会对PhiX的序列进行比对,算出Phasing和Pre-Phasing(一个簇中,有多少比例的DNA是少合成了一个碱基(Phasing),又有多少比例的DNA是多合成了一个碱基(Pre-Phasing))