Barcode是样品的标签,位于引物的外侧。比较典型的有三种,位于左端(正向引物上游),还有右端和双端两类也比较常用。
为什么16S测序有barcode?
目前扩增子研究对象细菌、真菌多样性没有表达基因数量大,一般是几百到千的水平,对数据量要求最多10万条序列即可饱合。将扩增子样本添加上barcode(标签),通常将48/60个样品混合在一起,构建一个测序文库,达到高通量测序大量样品同时降低实验成本的目的。
16S样品拆分的意思切开了barcode与扩增序列
方法一:使用Qiime 的split_libraries_fastq.py对样品根据barcode进行拆分
plit_libraries_fastq.py
-i reads.fastq \
-b barcodes.fastq \
-m mappingfile.txt \
-o split/ \
-q 20 \
--max_bad_run_length 3 \
--min_per_read_length_fraction 0.75 \
--max_barcode_errors 0 \
--barcode_type 6
方法二:使用Sabre 拆分数据
## Barcode data file format
# barcode_data.txt
barcode1 barcode1_output_file1.fastq barcode1_output_file2.fastq
barcode2 barcode2_output_file1.fastq barcode2_output_file2.fastq
## sabre pe
sabre pe -m 2 -f input_file1.fastq -r input_file2.fastq -b barcode_data.txt \
-u unknown_barcode1.fastq -w unknown_barcode1.fastq
总结,算法应该是滑动窗口处理