更高效的PacBio长read纠错算法的研究

该研究关注PacBio测序技术的长读长错误率问题,提出了三种新的纠错算法。HALC利用短read和contig提高碱基保留率,ReMILO检测并纠正重叠群错误和嵌合错误,HALS则是改进的长读长自纠错算法,显著提高了处理速度和通量。这些成果已发表在高水平科学期刊和会议上。
摘要由CSDN通过智能技术生成

项目摘要

编辑 播报

第三代PacBio测序技术的长read已越来越广泛的应用于各类测序项目中,而降低其约15%的错误率是必要的计算步骤。当前各类纠错算法可把长read的错误率降至1%,但也存在着一些问题。(1)针对各类算法碱基保留率较低的问题,我们提出研究基于短read contig的高碱基保留率算法,拟通过构建加权有向图和定义解决组合优化问题,来精确找到contig到长read的正确比对结果。(2)针对基于短read拼接的算法缺少chimeric错误纠错功能的问题,我们提出研究基于短read contig的chimeric错误纠错算法,拟通过比较长短read对长read和contig的支持度,来区分两者的chimeric错误。(3)针对自纠错算法对长read覆盖度要求太高的问题,我们提出研究覆盖度要求适中的长read自纠错算法,拟通过索引和比对长read的k-mer,来保证大量重复区域比对的运行时间。

结题摘要

编辑 播报

PacBio公司的第三代单分子实时测序技术已经被越来越广泛的应用于各类基因组测序项目之中,但是这一技术生成的长读长有15%左右的错误率,且包含导致错误拼接的嵌合错误。我们主要研究PacBio长读长的纠错算法,取得了以下三方面的研究成果。(1)长读长的高通量纠错算法HALC:该算法借助于与长读长来自同一物种的短读长和其拼接所得的重叠群对长读长纠错,取得了比其它纠错算法高6.7-41.1%的通量。(2)基于参考基因组和长短读长的重叠群错误拼接检测算法ReMILO:该算法综合使用来自相似物种的参考基因组和长读长来检测和纠正重叠群的错误拼接,以及长读长的嵌合错误,可以比其它算法多检测出11.6-98.5%的错误拼接。(3)长读长的快速、高通量自纠错算法HALS:该算法对当前最快速的长读长自纠错算法MECAT进行改进,取得了比MECAT高28.1-230.2%的通量。我们共发表3篇高水平论文,包括以项目负责人为第一作者和通讯作者的1区SCI期刊论文一篇和2区SCI期刊论文一篇,以及以项目负责人为第一作者的顶级会议子会论文一篇。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值