关于UMI的一些东西,概念,位置,如何处理
UMI是什么
UMI全称:Unique Molecular Identifiers。
又称分子条形码技术,是对原始样本基因组打断后的每一个片段都加上一段特有的标签序列,用于区分同一样本中成千上万的不同的片段,在后续的数据分析中可以通过这些标签序列来排除由于 DNA 聚合酶和扩增以及测序过程中所引入的错误。分子条形码通常由大约 10nt
左右的随机序列(比如 NNNNNNN),或者简并碱基(NNNRNYN)组成。
有别于样品标签(sample index
或 sample barcode
),分子条形码是针对同一个样本中的不同片段加上的标签序列,而样品标签是用于区分不同样本而加上的标签序列。
因此,每一个样本只能有一个相同的样品标签,但可以有成千上万的分子条形码。
UMI是给同一个样本的不同片段打上标签
UMI加在哪里?
双端index
,如果一端的index
已经可以区分不同的样本。则另一端index
的位置上可以用UMI
来代替。即UMI
在index
的位置上。UMI
的长度与index
相同。
UMI
也可以加在插入片段中,在index
和UMI
之间可能需要连接酶链接。在我们的某个项目中,UMI
就是加在插入片段中,index
和UMI
之间有8bp
的酶切位点。
UMI如何处理?
使用fastp
和gencore
软件可以很方便的处理UMI
。
标记UMI
使用fastp
标记reads
上的UMI
序列
fastp -i R1.fq -o out.R1.fq -U --umi_loc=read1 --umi_len=8
--umi_loc
指定UMI
的位置,如果是在reads
上,则还需要指定UMI
的长度。
得到一致性序列
使用gencore
的可以得到一致性序列
gencore -i in.bam -o out.bam -r hg19.fa -s 3 --umi_prefix=UMI --ratio_threshold=0.9