barcode(index)

最新推荐文章于 2024-10-02 00:23:27 发布

自我修炼的小石头

最新推荐文章于 2024-10-02 00:23:27 发布

阅读量1.7k

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/jinhh/p/8608372.html

版权

本文讨论了在基因测序中如何选择和设计 Barcode，以实现样本混合测序后的有效分离。强调了碱基平衡和激光平衡的重要性，以及不理想 Barcode 组合可能导致的测序质量问题和数据分离困难。并提供了 Barcode 组合实例和补救措施。

摘要由CSDN通过智能技术生成

在很多情况下，我们需要把多个样本混合在一起，在同一个通道(lane)里完成测序。像转录组测序、miRNA测序、lncRNA测序、ChIP测序等等，通常每个样本所需要的数据量都比较少，远少于HiSeq一个通道的产出能力，混合样本是普遍作法。以转录组测序为例，一个样本测序20 M片段(reads)，就能够满足绝大部分研究所需。而HiSeq 2000的一条通道，使用v3试剂，数据产出>175 M片段（如果双端分别计算，则为350M）。为了充分利用测序仪产能，节约成本，需要把8个RNA样本混合起来。如果使用v4试剂，是220M以上（双端440M），可混合11个样本。

为了能够把测序数据按样本分离（de-multiplexing），在构建文库(library)的时候，需要用不同的标签序列(index, 也叫barcode)对文库进行标记。只有文库作了记号，数据才能区分。

Barcode的选择是一门技术活。如果barcode组合不佳，标签序列测序质量下降，部分或者全部标签碱基识别不正确，将导致部分数据无法归属到任何一个样本，成为undetermined数据，造成浪费。

一、如何判断barcode组合好坏？

1、碱基平衡。好的barcode组合必须是“4种碱基达到平衡”的，或者说碱基复杂度高。具体就是：a. 在一组barcode的每一个位置，同时存在A、G、C、T四种碱基，不缺少任何一种碱基；b. 这4种碱基的比例接近，最好各1/4，分别为25%左右，没有任何一种碱基特别多或者特别少。

2、激光平衡。受客观条件限制，主要是a.试剂盒提供的barcode种类有限，b.有些barcode已经被其他样本占用，导致可选的余地受限制，这就导致barcode组合经常无法达到理想的碱基平衡要求。退而求其次，要力保“红绿激光达到平衡”。在所有型号的Illumina测序仪中，A和C两种碱基共用一种激光，由波长660 nm的红激光激发；G和T共用一种激光，由波长532 nm的绿激光激发。对于一组barcode的每一个位置