UMI简介

最新推荐文章于 2024-09-08 17:39:28 发布

星轨无尽

最新推荐文章于 2024-09-08 17:39:28 发布

阅读量1.1w

点赞数 4

本文首发于公众号：柠檬培养师（ID: yantinger90），欢迎关注！

本文链接：https://blog.csdn.net/github_37480618/article/details/106665150

版权

关于UMI的一些东西，概念，位置，如何处理

UMI是什么

UMI全称：Unique Molecular Identifiers。
又称分子条形码技术，是对原始样本基因组打断后的每一个片段都加上一段特有的标签序列，用于区分同一样本中成千上万的不同的片段，在后续的数据分析中可以通过这些标签序列来排除由于 DNA 聚合酶和扩增以及测序过程中所引入的错误。分子条形码通常由大约 10nt 左右的随机序列（比如 NNNNNNN)，或者简并碱基（NNNRNYN）组成。
有别于样品标签（sample index 或 sample barcode），分子条形码是针对同一个样本中的不同片段加上的标签序列，而样品标签是用于区分不同样本而加上的标签序列。
因此，每一个样本只能有一个相同的样品标签，但可以有成千上万的分子条形码。

UMI是给同一个样本的不同片段打上标签

UMI加在哪里？

双端index，如果一端的index已经可以区分不同的样本。则另一端index的位置上可以用UMI来代替。即UMI在index的位置上。UMI的长度与index相同。

UMI也可以加在插入片段中，在index和UMI之间可能需要连接酶链接。在我们的某个项目中，UMI就是加在插入片段中，index和UMI之间有8bp的酶切位点。

UMI如何处理？

使用fastp和gencore软件可以很方便的处理UMI。

标记UMI

使用fastp标记reads上的UMI序列

fastp -i R1.fq -o out.R1.fq -U --umi_loc=read1 --umi_len=8

--umi_loc指定UMI的位置，如果是在reads上，则还需要指定UMI的长度。

得到一致性序列

使用gencore的可以得到一致性序列

gencore -i in.bam -o out.bam -r hg19.fa -s 3 --umi_prefix=UMI --ratio_threshold=0.9

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。