校正第三代测序数据

校正第三代测序数据

皮埃尔·莫里斯 1 详细信息

LITIS-计算机科学,信息处理和系统实验室

在FR

摘要:本论文的目标是处理来自高速定序器(尤其是第三代定序器)的数据的广泛问题的一部分,该问题主要针对于校正序列错误,以及校正对基础分析质量(尤其是对装配体)的影响。首先,本论文的目标之一是评估和比较各种混合校正方法(另外还使用短读)和自校正(仅基于最新阅读的长篇文章中包含的信息。通过这种评估,可以轻松地确定哪种校正方法最适合给定的情况,尤其是根据所研究基因组的复杂程度,测序深度或读取错误率来确定。此外,开发人员可以识别现有方法的局限性,以指导他们的工作并提出克服这些局限性的新解决方案。已经开发了一种新的评估工具,与迄今为止唯一可用的工具相比,它提供了许多其他指标。该工具将多重比对方法与细分策略相结合,还大大减少了评估所需的时间。使用此工具,可以提供所有可用校正方法的基准,从各种各样的数据集,测序深度,错误率和复杂程度(从贝氏杆菌到人类)进行分析。该基准使我们有可能确定现有工具的两个重要局限性:读取错误率高于30%,读取长度超过50,000个碱基对。因此,本论文的第二个目标是纠正非常嘈杂的读码。为此,已经开发出一种混合校正工具,其结合了现有技术的不同方法,以克服现有方法的局限性。特别地,该工具结合了使用de Bruijn图的方式将长读短读对齐的策略,并具有可变顺序的特殊性。因此,该图用于链接对齐的读段,从而校正长读段的未覆盖区域。与ELISA方法相比,该方法可校正错误率高达44%的读段,同时可扩展大型基因组并减少处理时间。最先进的技术。最后,本论文的第三个目标是对超长阅读的纠正。为此,已经开发了使用这次自我校正方法的工具,再次结合了现有技术的不同方法。更具体地说,一种策略是先计算读段之间的重叠,然后通过多重比对再使用局部de Bruijn图来进行双校正步骤,在这里使用。为了使该方法能够有效地扩展极长的读取,已对上述分割策略进行了概括。这种自校正方法可以校正多达340,000个碱基对的读数,同时在更复杂的基因组(例如人)上具有出色的可扩展性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值