illumina的barcode居然有那么多类型

前段时间第一次拿到200多个群体的测序数据,准备对这些数据分析,然后就遇到自己以前分析几个样本不会遇到的问题:illumina平台一次上机会得到好几个T的数据,公司是如何保证不会把数据给错用户呢?

其实答案我也知道,就是给不同样本加上barcode,但是我没想到的是barcode居然有那么多组合方式。

barcode虽然可以简单分为两种,如下

  • inline barcode: 出现在一条read的碱基序列中
  • index barcode: 出现在一条read的ID部分

但是在reads中出现的花样就特别多了,可以只在一端read中出现Inline barcode(图一),或在一端read中出现index barcode(图二),也可以在一端read中同时有inline barcode和index barcode(图三),也可以在一端有inline barcode 加 index barcode,在另一端只有 index barcode(图四),以及在两端都只有index barcode(图五), 最后是在两端都有 inline barcode(图六)

img_0cbcabedde8a960ec4ada0d113aa5275.png
图一:SE|PE single inline barcode
img_ea8af3b0009ba7e79621cfbc6bc0f3c0.png
图二:SE|PE single index barcode
img_5d710b09753bc88edcef591c102d65f0.png
图三:SE inline barcode + index barcode
img_9243b3ad3b40b8d5793ca66aa8e466db.png
图四:PE inline barcode + index barcode
img_6bc4816238cfd7612fdec99fed3b62f8.png
图五:PE index barcode
img_25b2ff0e717becb6497a3846ad786d34.png
图六:PE inline barcode

虽然有那么多加barcode的策略,但其实本质上是两种标记策略。当然还有一种策略就是你承包一条lane,这样子你就不需要加barcode,也就是图A。

图B中的Barcode就是inline code,它在接头的5'端即测序引物那部分上,和DNA片段邻近,在测序的时候,加入引物,然后一边合成一边测序,于是在最后的序列中就会引入barcode。

图C的Index是index barcode,在接头的3'端,测序的时候也是先加第一个引物(SP1),然后一边合成一边测序,等读完之后,再加入index引物(IP)去测index的部分,对样本进行区分,因此不会占用读长。

img_b7099b2e0aef05f69fb123a0d5dd8477.png
barcode

Rd: read,短读
SP: sequencing primers, 测序引物

如果样本比较小,也就是十几个,公司会用index barcode,得到的read长度都是100或150。如果样本有上百个,公司就考虑用inline barcode,如果返回的是分开样本的fastq,那么长度就不到150,100,因为去掉了inline barcode。

最后强烈推荐观看这个视频陈巍学基因1:Illumina测序化原理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值