0068-【数据质控】-Illumina的Barcode的设计用于16S测序

对于16S接头涉及还有更多国外经典图示文章。如一步法扩增来构建文库,两步法扩增来构建文库。

下面为来源一个博客的文章。

Illumina测序平台无疑是市场上众多二代测序平台中的翘楚,高通量、高质量、低成本,操作简便,重现性好,各种好处使他的成绩在同班众兄弟中遥遥领先,公认为学霸。要想把Illumina平台用到极致,则样本的碱基平衡度是七寸和肯綮,不得不加以关注。只要把握好这一点,二代测序就能成功一大半。在影响和改善样本碱基平衡度的各种因素和途径中,barcode是重要的一环。

Barcode放在什么地方好呢?

一、Illumina的设计

Illumina把barcode放在下游接头(adaptor)的中间。其文库结构简式如下:

     [式1]    5’-上游接头-样本插入片段-下游接头的前半段-barcode-下游接头的后半段-3’

或者:

     [式2]    5’-上游接头的前半段-barcode 1-上游接头的后半段-样本插入片段-下游接头的前半段-barcode 2-下游接头的后半段-3’

当然也可以如下设计:

     [式3]    5’-上游接头的前半段-barcode-上游接头的后半段-样本插入片段-下游接头-3’
            式3与式1效果一样,不作讨论。

     应当说这是非常科学的设计,是已有方案中最好的。优点有两个:第一,不影响有效读长;第二,不影响样本的碱基平衡度。由于barcode测序是单独、专门进行的,与read 1和read 2分开,所以不占用读长。无论read 1还是read 2,读长都不受barcode影响,100碱基就是100碱基,150碱基就是150碱基,实打实全部是插入序列,一分钱不浪费。至于barcode怎么会影响到样本的碱基平衡度,我们看了后面的设计就自然明白了。

     缺点有没有呢?当然有,那就是花钱比较多,试剂成本比较贵。这个缺点不是因为方案设计本身太复杂,而是因为Illumina卖价高,而且还要与建库试剂打包卖,不零趸。

二、常见的自定义设计

为了省钱,很多人决定自己动手来设计、合成接头。还是为了省钱,自己设计的接头不得不与Illumina试剂兼容。受这样的限制,大部分barcode的位置就被设计成了这样:

      [式4]    5’-上游接头-barcode-样本插入片段-下游接头-3’

或者:
[式5] 5’-上游接头-样本插入片段-barcode-下游接头-3’

或者:

     [式6]    5’-上游接头-barcode 1-样本插入片段-barcode 2-下游接头-3’

这种设计问题严重。缺点也有两个:第一,缩短了有效读长,第二,降低了样本的碱基平衡度。

以式4为例,由于Illumina测序引物的杂交位点位于上游接头的3’端,read 1的测序读长就被barcode占用了一部分,有效读长变短了。Read 2的有效读长不变。假设barcode长7个碱基,read 1测序101个碱基,则有效读长就只有101-7=94个碱基。

还是由于Illumina测序引物的杂交位点位于上游接头的3’端,read 1测序一上来测的就是barcode序列。如果barcode组合的碱基组成不平衡的话,全部测序数据都将受到拖累,质量降低。因为Illumina软件需要使用前4个碱基的统计数据来定位cluster,使用前25个碱基的数据来计算PF。假设barcode长7个碱基,且碱基组成不平衡,则read 1测序的cluster定位和PF计算都将受到严重影响。Barcode的碱基组成肯定要比未知样本的低。

优点有没有呢?好像没有。

## 三、自定义设计的改进

自己设计barcode、自己合成接头,怎样才能避免上述弊端呢?不妨考虑以下改进措施:

      [式7]    5’-上游接头-SPACER-barcode-样本插入片段-下游接头-3’

其中SPACER是一系列长短不等的短片段,要求做到两点:第一,长度有变化;第二,碱基有变化。比如说像下面这样的一套:

     N

    NN

    NNN

    NNNN

不同的barcode配合不同长度和不同碱基组成的spacer使用,可以形成barcode被错开的效果,自然而然地增加了barcode的碱基平衡度。虽然有效读长更短了,但是后果更严重的碱基平衡度问题被解决了。考虑到Illumina软件使用前4个碱基的数据来定位cluster,spacer的最大长度为4个碱基比较好。

三、PCR产物测序的改进

Spacer也能用于改进PCR产物测序。

PCR扩增产物(amplicon)的两端都是引物序列,如果PCR只使用一对引物,各自有大约20个碱基(PCR引物的长度)的范围内,碱基组成是极度不平衡的。由于每个位置都只有1种碱基,测序数据的质量和产量都将受到严重影响。

只要在PCR引物的外侧(5’端)加上不同长度的spacer,就可以到达平衡碱基的效果,无论引物(primer)还是扩增区域(target)都被错开,即使是高度重复序列区域(比如说16S rDNA)的PCR扩增物,也能提高碱基复杂度,达到平衡,巧妙地解决了令人头疼的amplicon-seq难题。

参考来源:http://garification.lofter.com/post/1cc7c557_5f66ab2

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
16s扩增子多样性测序平台是一种用于研究微生物群落多样性的技术。它通过放大16s rRNA基因的特定片段,并对其进行测序,从而可以鉴定出样本中存在的不同微生物种类和丰度。 在选择16s扩增子多样性测序平台时,我们需要考虑以下几个因素: 1. 扩增子选择:不同的16s扩增子可以放大不同的区域,因此选择合适的扩增子可以影响到测序结果的准确性和可靠性。一般来说,常用的扩增子包括V1-V3、V3-V4和V4-V5等。 2. 测序平台:目前常用的测序平台包括Illumina MiSeq、Ion Torrent PGM和454 pyrosequencing等。每种平台的测序深度和准确性都有所不同,因此在选择测序平台时需要考虑所需的数据量以及实验预算。 针对测序数据量的选择,我们需要结合实际需要和预算考虑: 1. 数据需求:根据研究目的和问题的复杂程度,选择适当的数据量可以满足需求。如果只是对样本的一般微生物群落进行初步了解,较小的数据量可能足够。而对于复杂的微生物样本,更大的数据量可以提供更详细的分析信息。 2. 预算限制:不同的测序平台和数据量对应的测序费用也是考虑的重要因素。通常来说,测序费用会随着数据量的增加而增加。因此,我们需要根据实验预算来选择适当的数据量。 总结来说,选择16s扩增子多样性测序平台时需要考虑扩增子的选择以及测序平台的性能;选择测序数据量时需要根据实际需求和实验预算进行权衡。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值