三代测序数据自纠错技术 和 二代测序数据对三代测序数据纠错的技术。

以Pacbio为代表的第三代测序平台,其测序读长(reads)长(平均10~15k)且无GC偏向性的优势,使其在基因组组装等方面得到了广泛的应用,但其过高的错误率(15%~20%),使得组装算法的复杂性大大提高。

对于组装策略而言,输入的读长的错误率长度测序深度是影响组装效果的主要指标。

因此,在利用第三代测序数据进行组装时,充分利用数据特征,对第三代测序读长进行纠错,降低其数据错误率,是数据前处理的一个重要步骤。

以Hiseq为代表的第二代测序,相对于第三代测序来说是一个成本更低、准确率更高的测序方式。

Hiseq数据的错误率要比PacBio数据的错误率低1~1.5个数量级。

因而,利用第二代测序数据对第三代测序数据进行纠错,在可以将第三代数据的错误率降低到与第二代测序相当的水平。

从而更有利用基因组组装及其他相关的技术应用。

目前的纠错技术包括:三代测序数据自纠错技术二代测序数据对三代测序数据纠错的技术

三代测序数据自纠错技术,以QuiverPBcR MHAP为代表。

以Quiver为例,其技术路线为:

将长的三代PacBio读长作为参考序列(reference),将其他读长比对到参考序列上。

然后利用序列间的一致性去推断比对区域的一致性序列,用得到的一致性序列替换原序列从而得到纠错后的读长(Chen-Shan Chin,et al(2013),Nonhybrid,finished microbial genome assemblies from long-read SMRT sequencing data-nature methods,Supplementary Note 1,p13~p16)。

PBcR MHAP与Quiver类似,其优势在于只用到了三代测序数据,缺点在于需要较高的数据深度

二代测序数据对三代测序数据纠错的技术,以PacbioToCAECtools为代表。

以PacbioToCA为例,其技术路线为:将二代短读长比对到三代读长上,然后将比对到一起的二代和三代读长合并,生成一致序列。然后截断并分离二代比对出现间隙(gap)的位点,作为纠错后的读长(Sergey Koren et al(2012)Hybrid error correction and de novo assembly of single-molecule sequencing reads-nature biotechnology)。

该方案综合利用了二代测序数据和三代测序数据,但没有考虑同一基因组多个相似片段间的差异。

 

总而言之,现有技术方案存在如下缺陷:

在典型应用场景下通常会导致大量的数据损失

会导致读长长度的缩短,不利于充分利用三代数据的读长优势;

纠错结果为纯序列格式,无质量值系统,无法评估纠错结果中各碱基的错误率;

并且自纠错技术需要一定深度的三代数据才能完成纠错,对低深度数据不适用。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值