0068-【数据质控】-Illumina的Barcode的设计用于16S测序

最新推荐文章于 2024-10-15 09:33:13 发布

leadingsci

最新推荐文章于 2024-10-15 09:33:13 发布

阅读量3.7k

点赞数

分类专栏：【数据质控】

【数据质控】专栏收录该内容

3 篇文章

订阅专栏

本文聚焦Illumina测序平台，指出把握样本碱基平衡度对二代测序至关重要，而barcode是影响因素之一。介绍了Illumina的barcode设计，分析常见自定义设计的缺点，提出改进措施，还阐述了spacer用于改进PCR产物测序，解决碱基不平衡问题。

对于16S接头涉及还有更多国外经典图示文章。如一步法扩增来构建文库，两步法扩增来构建文库。

下面为来源一个博客的文章。

Illumina测序平台无疑是市场上众多二代测序平台中的翘楚，高通量、高质量、低成本，操作简便，重现性好，各种好处使他的成绩在同班众兄弟中遥遥领先，公认为学霸。要想把Illumina平台用到极致，则样本的碱基平衡度是七寸和肯綮，不得不加以关注。只要把握好这一点，二代测序就能成功一大半。在影响和改善样本碱基平衡度的各种因素和途径中，barcode是重要的一环。

Barcode放在什么地方好呢？

一、Illumina的设计

Illumina把barcode放在下游接头(adaptor)的中间。其文库结构简式如下：

     [式1]    5’-上游接头-样本插入片段-下游接头的前半段-barcode-下游接头的后半段-3’

或者：

     [式2]    5’-上游接头的前半段-barcode 1-上游接头的后半段-样本插入片段-下游接头的前半段-barcode 2-下游接头的后半段-3’

当然也可以如下设计：

     [式3]    5’-上游接头的前半段-barcode-上游接头的后半段-样本插入片段-下游接头-3’
            式3与式1效果一样，不作讨论。

     应当说这是非常科学的设计，是已有方案中最好的。优点有两个：第一，不影响有效读长；第二，不影响样本的碱基平衡度。由于barcode测序是单独、专门进行的，与read 1和read 2分开，所以不占用读长。无论read 1还是read 2，读长都不受barcode影响，100碱基就是100碱基，150碱基就是150碱基，实打实全部是插入序列，一分钱不浪费。至于barcode怎么会影响到样本的碱基平衡度，我们看了后面的设计就自然明白了。

     缺点有没有呢？当然有，那就是花钱比较多，试剂成本比较贵。这个缺点不是因为方案设计本身太复杂，而是因为Illumina卖价高，而且还要与建库试剂打包卖，不零趸。

二、常见的自定义设计

为了省钱，很多人决定自己动手来设计、合成接头。还是为了省钱，自己设计的接头不得不与Illumina试剂兼容。受这样的限制，大部分barcode的位置就被设计成了这样：

      [式4]    5’-上游接头-barcode-样本插入片段-下游接头-3’

或者：
[式5] 5’-上游接头-样本插入片段-barcode-下游接头-3’

或者：

     [式6]    5’-上游接头-barcode 1-样本插入片段-barcode 2-下游接头-3’

这种设计问题严重。缺点也有两个：第一，缩短了有效读长，第二，降低了样本的碱基平衡度。

以式4为例，由于Illumina测序引物的杂交位点位于上游接头的3’端，read 1的测序读长就被barcode占用了一部分，有效读长变短了。Read 2的有效读长不变。假设barcode长7个碱基，read 1测序101个碱基，则有效读长就只有101-7=94个碱基。

还是由于Illumina测序引物的杂交位点位于上游接头的3’端，read 1测序一上来测的就是barcode序列。如果barcode组合的碱基组成不平衡的话，全部测序数据都将受到拖累，质量降低。因为Illumina软件需要使用前4个碱基的统计数据来定位cluster，使用前25个碱基的数据来计算PF。假设barcode长7个碱基，且碱基组成不平衡，则read 1测序的cluster定位和PF计算都将受到严重影响。Barcode的碱基组成肯定要比未知样本的低。

优点有没有呢？好像没有。

## 三、自定义设计的改进

自己设计barcode、自己合成接头，怎样才能避免上述弊端呢？不妨考虑以下改进措施：

      [式7]    5’-上游接头-SPACER-barcode-样本插入片段-下游接头-3’

其中SPACER是一系列长短不等的短片段，要求做到两点：第一，长度有变化；第二，碱基有变化。比如说像下面这样的一套：

     N

    NN

    NNN

    NNNN

不同的barcode配合不同长度和不同碱基组成的spacer使用，可以形成barcode被错开的效果，自然而然地增加了barcode的碱基平衡度。虽然有效读长更短了，但是后果更严重的碱基平衡度问题被解决了。考虑到Illumina软件使用前4个碱基的数据来定位cluster，spacer的最大长度为4个碱基比较好。