基于链读测序数据对长读拼接纠错的算法研究

wangchuang2017

于 2023-05-31 09:16:10 发布

阅读量108

点赞数

文章标签：其他

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010608296/article/details/130961788

版权

基于链读测序数据对长读拼接纠错的算法研究

冯艳霞

天津师范大学

摘要：针对第三代测序数据自身存在相对高错误率的问题,提出一种基于l0x Genomics测序平台的链读(Linked Reads)测序数据对PacBio测序平台的长读数据(long reads)进行纠错的算法。首先运用拼接算法Wtdbg2将人类基因组第三代长读测序数据拼接成重叠链(contigs),将contigs打碎成相同k碱基长度的短读(k-mers)并存储于哈希表中;然后将同一 Barcode的链读数据打碎成k值相同的短序k-mers,选取每一个k-mer去遍历哈希表寻找与之相匹配的contig编号及位置信息,这样,可快速地将Linked Reads序列分配到contigs中;再利用比对工具Bowtie 2把Linked Reads序列比对到contigs上;最后,使用超几何分布公式统计每个位置碱基的频率,计算P值并识别错误碱基或者单核酸多态性(SNP)。通过Linked Reads测序数据对来自人类不同细胞的基因组数据Human HG00733、Human NA24385、Human CHM1进行纠错验证,结果表明所提算法能够显著提高基因组装的Scaffold长度,而且组装的基因组具...更多

关键词：

高通量测序技术;序列纠错算法;基因组装算法;长读序;链读序列;

专辑：
基础科学;信息科技
专题：
生物学;计算机软件及计算机应用
分类号：
Q78;TP311.1

导师：

张少强;

学科专业：

教育技术学

硕士电子期刊出版信息：

年期：2020年第01期网络出版时间：2019-12-16——2020-01-15

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于链读测序数据对长读拼接纠错的算法研究

摘要：针对第三代测序数据自身存在相对高错误率的问题,提出一种基于l0x Genomics测序平台的链读(Linked Reads)测序数据对PacBio测序平台的长读数据(long reads)进行纠错的算法。然后将同一 Barcode的链读数据打碎成k值相同的短序k-mers,选取每一个k-mer去遍历哈希表寻找与之相匹配的contig编号及位置信息,这样,可快速地将Linked Reads序列分配到contigs中;年期：2020年第01期网络出版时间：2019-12-16——2020-01-15。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

wangchuang2017 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。