基因组Masked作用

Masked, soft-masked 和 unmasked
Ensembl 参考基因组有三大类,masked, soft-masked and unmasked。一般而言,比对的时候推荐使用unmasked 参考基因组。Masking用于检测和隐藏散布的重复序列和低复杂度的DNA区域,以便可以使用比对工具对其进行正确处理。(Masking 这个词不太好翻译,意思见下面引用原文)

“Masking is used to detect and conceal interspersed repeats and low complexity DNA regions so that they could be processed properly by alignment tools.”

Masked genome
Masked基因组也分两类,Masked, soft-masked。

Masked 基因组,也叫 hard-masked DNA sequences,重复和低复杂基因组区域被识别出来并用许多的‘N’代替。使用masked 基因组可能会造成错误的read mapping和变异识别 (variant calls)。

我们不建议你使用masked genome,因为它缺失了一些信息(如在比对结束后,有些unique序列并非真正的unique序列),无法保证100%的准确性和敏感性。此外,它可能会提高了falsely mapped reads的数量。

soft-masked genome
soft masked genomes 中的重复和低复杂基因组区域则是用小写字母替换了原有的大写字母。

soft-masked genome包含了用小写字母标记的重复序列,因此使用soft-masked genome可提高比对质量,且不会损害敏感性。但是应该注意,大多数比对工具都没有考虑到soft-masked区域,例如BWA,tophat,bowtie2等工具在比对时始终使用所有碱基,无论它们是否为小写核苷酸。这就是为什么与unmasked genome相比,使用soft-masked genome并没有实际的好处。有时候你也可以看到repeat-masked genome,这是用特别的工具如RepeatMasker, 进行masking得到的。RepeatMasker会遍历DNA序列,寻找重复序列和低复杂度区域。默认参数的情况下,会用‘N’替代。

unmasked genome
建议使用unmasked genome,如果你不想丢失信息。如果你想过滤数据,最好是在比对后进行。

例如:WES分析,我们建议使用最新的unmasked参考基因组。

一句话总结:用unmasked genome就可以了,使用最新版本的基因组时,需要看看相应的注释文件是否也已经更新。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值