对于16S接头涉及还有更多国外经典图示文章。如一步法扩增来构建文库,两步法扩增来构建文库。
下面为来源一个博客的文章。
Illumina测序平台无疑是市场上众多二代测序平台中的翘楚,高通量、高质量、低成本,操作简便,重现性好,各种好处使他的成绩在同班众兄弟中遥遥领先,公认为学霸。要想把Illumina平台用到极致,则样本的碱基平衡度是七寸和肯綮,不得不加以关注。只要把握好这一点,二代测序就能成功一大半。在影响和改善样本碱基平衡度的各种因素和途径中,barcode是重要的一环。
Barcode放在什么地方好呢?
一、Illumina的设计
Illumina把barcode放在下游接头(adaptor)的中间。其文库结构简式如下:
[式1] 5’-上游接头-样本插入片段-下游接头的前半段-barcode-下游接头的后半段-3’
或者:
[式2] 5’-上游接头的前半段-barcode 1-上游接头的后半段-样本插入片段-下游接头的前半段-barcode 2-下游接头的后半段-3’
当然也可以如下设计:
[式3] 5’-上游接头的前半段-barcode-上游接头的后半段-样本插入片段-下游接头-3’
式3与式1效果一样,不作讨论。
应当说这是非常科学的设计,是已有方案中最好的。优点有两个:第一,不影响有效读长;第二,不影响样本的碱基平衡度。由于barcode测序是单独、专门进行的,与read 1和read 2分开,所以不占用读长。无论read 1还是read 2,读长都不受barcode影响,100碱基就是100碱基,150碱基就是150碱基,实打实全部是插入序列,一分钱不浪费。至于barcode怎么会影响到样本的碱基平衡度,我们看了后面的设计就自然明白了。
缺点有没有呢?当然有,那就是花钱比较多,试剂成本比较贵。这个缺点不是因为方案设计本身太复杂,而是因为Illumina卖价高,而且还要与建库试剂打包卖,不零趸。
二、常见的自定义设计
为了省钱,很多人决定自己动手来设计、合成接头。还是为了省钱,自己设计的接头不得不与Illumina试剂兼容。受这样的限制,大部分barcode的位置就被设计成了这样:
[式4] 5’-上游接头-barcode-样本插入片段-下游接头-3’
或者:
[式5] 5’-上游接头-样本插入片段-barcode-下游接头-3’
或者:
[式6] 5’-上游接头-barcode 1-样本插入片段-barcode 2-下游接头-3’
这种设计问题严重。缺点也有两个:第一,缩短了有效读长,第二,降低了样本的碱基平衡度。
以式4为例,由于Illumina测序引物的杂交位点位于上游接头的3’端,read 1的测序读长就被barcode占用了一部分,有效读长变短了。Read 2的有效读长不变。假设barcode长7个碱基,read 1测序101个碱基,则有效读长就只有101-7=94个碱基。
还是由于Illumina测序引物的杂交位点位于上游接头的3’端,read 1测序一上来测的就是barcode序列。如果barcode组合的碱基组成不平衡的话,全部测序数据都将受到拖累,质量降低。因为Illumina软件需要使用前4个碱基的统计数据来定位cluster,使用前25个碱基的数据来计算PF。假设barcode长7个碱基,且碱基组成不平衡,则read 1测序的cluster定位和PF计算都将受到严重影响。Barcode的碱基组成肯定要比未知样本的低。
优点有没有呢?好像没有。
## 三、自定义设计的改进
自己设计barcode、自己合成接头,怎样才能避免上述弊端呢?不妨考虑以下改进措施:
[式7] 5’-上游接头-SPACER-barcode-样本插入片段-下游接头-3’
其中SPACER是一系列长短不等的短片段,要求做到两点:第一,长度有变化;第二,碱基有变化。比如说像下面这样的一套:
N
NN
NNN
NNNN
不同的barcode配合不同长度和不同碱基组成的spacer使用,可以形成barcode被错开的效果,自然而然地增加了barcode的碱基平衡度。虽然有效读长更短了,但是后果更严重的碱基平衡度问题被解决了。考虑到Illumina软件使用前4个碱基的数据来定位cluster,spacer的最大长度为4个碱基比较好。
三、PCR产物测序的改进
Spacer也能用于改进PCR产物测序。
PCR扩增产物(amplicon)的两端都是引物序列,如果PCR只使用一对引物,各自有大约20个碱基(PCR引物的长度)的范围内,碱基组成是极度不平衡的。由于每个位置都只有1种碱基,测序数据的质量和产量都将受到严重影响。
只要在PCR引物的外侧(5’端)加上不同长度的spacer,就可以到达平衡碱基的效果,无论引物(primer)还是扩增区域(target)都被错开,即使是高度重复序列区域(比如说16S rDNA)的PCR扩增物,也能提高碱基复杂度,达到平衡,巧妙地解决了令人头疼的amplicon-seq难题。