更高效的PacBio长read纠错算法的研究

wangchuang2017

于 2023-05-20 11:48:26 发布

阅读量74

点赞数

文章标签：其他

本文链接：https://blog.csdn.net/u010608296/article/details/130779765

版权

该研究关注PacBio测序技术的长读长错误率问题，提出了三种新的纠错算法。HALC利用短read和contig提高碱基保留率，ReMILO检测并纠正重叠群错误和嵌合错误，HALS则是改进的长读长自纠错算法，显著提高了处理速度和通量。这些成果已发表在高水平科学期刊和会议上。

摘要由CSDN通过智能技术生成

项目摘要

编辑播报

第三代PacBio测序技术的长read已越来越广泛的应用于各类测序项目中，而降低其约15%的错误率是必要的计算步骤。当前各类纠错算法可把长read的错误率降至1%，但也存在着一些问题。（1）针对各类算法碱基保留率较低的问题，我们提出研究基于短read contig的高碱基保留率算法，拟通过构建加权有向图和定义解决组合优化问题，来精确找到contig到长read的正确比对结果。（2）针对基于短read拼接的算法缺少chimeric错误纠错功能的问题，我们提出研究基于短read contig的chimeric错误纠错算法，拟通过比较长短read对长read和contig的支持度，来区分两者的chimeric错误。（3）针对自纠错算法对长read覆盖度要求太高的问题，我们提出研究覆盖度要求适中的长read自纠错算法，拟通过索引和比对长read的k-mer，来保证大量重复区域比对的运行时间。

结题摘要

编辑播报

PacBio公司的第三代单分子实时测序技术已经被越来越广泛的应用于各类基因组测序项目之中，但是这一技术生成的长读长有15%左右的错误率，且包含导致错误拼接的嵌合错误。我们主要研究PacBio长读长的纠错算法，取得了以下三方面的研究成果。（1）长读长的高通量纠错算法HALC：该算法借助于与长读长来自同一物种的短读长和其拼接所得的重叠群对长读长纠错，取得了比其它纠错算法高6.7-41.1%的通量。（2）基于参考基因组和长短读长的重叠群错误拼接检测算法ReMILO：该算法综合使用来自相似物种的参考基因组和长读长来检测和纠正重叠群的错误拼接，以及长读长的嵌合错误，可以比其它算法多检测出11.6-98.5%的错误拼接。（3）长读长的快速、高通量自纠错算法HALS：该算法对当前最快速的长读长自纠错算法MECAT进行改进，取得了比MECAT高28.1-230.2%的通量。我们共发表3篇高水平论文，包括以项目负责人为第一作者和通讯作者的1区SCI期刊论文一篇和2区SCI期刊论文一篇，以及以项目负责人为第一作者的顶级会议子会论文一篇。