背景
串联重复序列作为基因组重排研究的热点之一,对遗传疾病的遗传背景有着重要的影响。许多用于参考序列串联重复检测的方法获得了高质量的结果。但是,在de novo上下文中,没有可用的参考序列,串联重复检测仍然是一个难题。用第二代测序方法获得的短序列长度不足以跨越包含长重复的区域。这种长度限制是通过第三代测序平台(如太平洋生物科学技术公司)获得的长读来解决的。尽管如此,读取长度的增加伴随着明显的错误率的增加。当前长读研究的主要目标是处理高达16%的高错误率。
方法
在这篇论文中,我们提出了MixTaR,这是第一个串联重复检测的从头开始的方法,它结合了高质量的短读和大长度的长读。我们的混合算法使用一组短读来进行基于de Bruijn图的串联重复模式检测。然后使用长读验证这些模式,并使用局部贪婪程序集构造串联重复序列。结果混合焦油测试与模拟和实际读数从复杂的生物体。为了完整地分析它对错误的鲁棒性,我们使用不同错误率的短读和长读。然后根据检测到的串联重复的数量及其模式的长度对结果进行分析。
结论
该方法具有较高的精度和灵敏度。MixTaR的假阳性率很低,即使是高度错误的读取,它也能够检测出精确的串联重复,模式长度在显著的间隔内变化。