基于链读测序数据对长读拼接纠错的算法研究

基于链读测序数据对长读拼接纠错的算法研究

冯艳霞

天津师范大学

摘要:针对第三代测序数据自身存在相对高错误率的问题,提出一种基于l0x Genomics测序平台的链读(Linked Reads)测序数据对PacBio测序平台的长读数据(long reads)进行纠错的算法。首先运用拼接算法Wtdbg2将人类基因组第三代长读测序数据拼接成重叠链(contigs),将contigs打碎成相同k碱基长度的短读(k-mers)并存储于哈希表中;然后将同一 Barcode的链读数据打碎成k值相同的短序k-mers,选取每一个k-mer去遍历哈希表寻找与之相匹配的contig编号及位置信息,这样,可快速地将Linked Reads序列分配到contigs中;再利用比对工具Bowtie 2把Linked Reads序列比对到contigs上;最后,使用超几何分布公式统计每个位置碱基的频率,计算P值并识别错误碱基或者单核酸多态性(SNP)。通过Linked Reads测序数据对来自人类不同细胞的基因组数据Human HG00733、Human NA24385、Human CHM1进行纠错验证,结果表明所提算法能够显著提高基因组装的Scaffold长度,而且组装的基因组具...更多

关键词:

高通量测序技术;序列纠错算法;基因组装算法;长读序;链读序列;

  • 专辑:

    基础科学;信息科技

  • 专题:

    生物学;计算机软件及计算机应用

  • 分类号:

    Q78;TP311.1

导师:

张少强;

学科专业:

教育技术学

硕士电子期刊出版信息:

年期:2020年第01期网络出版时间:2019-12-16——2020-01-15

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值