UMI简介

关于UMI的一些东西,概念,位置,如何处理

UMI是什么

UMI全称:Unique Molecular Identifiers
又称分子条形码技术,是对原始样本基因组打断后的每一个片段都加上一段特有的标签序列,用于区分同一样本中成千上万的不同的片段,在后续的数据分析中可以通过这些标签序列来排除由于 DNA 聚合酶和扩增以及测序过程中所引入的错误。分子条形码通常由大约 10nt 左右的随机序列(比如 NNNNNNN),或者简并碱基(NNNRNYN)组成。
有别于样品标签(sample indexsample barcode),分子条形码是针对同一个样本中的不同片段加上的标签序列,而样品标签是用于区分不同样本而加上的标签序列。
因此,每一个样本只能有一个相同的样品标签,但可以有成千上万的分子条形码。

UMI是给同一个样本的不同片段打上标签

UMI加在哪里?

双端index,如果一端的index已经可以区分不同的样本。则另一端index的位置上可以用UMI来代替。即UMIindex的位置上。UMI的长度与index相同。

UMI也可以加在插入片段中,在indexUMI之间可能需要连接酶链接。在我们的某个项目中,UMI就是加在插入片段中,indexUMI之间有8bp的酶切位点。

UMI如何处理?

使用fastpgencore软件可以很方便的处理UMI

标记UMI

使用fastp标记reads上的UMI序列

fastp -i R1.fq -o out.R1.fq -U --umi_loc=read1 --umi_len=8

--umi_loc指定UMI的位置,如果是在reads上,则还需要指定UMI的长度。

FASTP用法

得到一致性序列

使用gencore的可以得到一致性序列

gencore -i in.bam -o out.bam -r hg19.fa -s 3 --umi_prefix=UMI --ratio_threshold=0.9
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值