基于链读测序数据对长读拼接纠错的算法研究
冯艳霞
天津师范大学
摘要:针对第三代测序数据自身存在相对高错误率的问题,提出一种基于l0x Genomics测序平台的链读(Linked Reads)测序数据对PacBio测序平台的长读数据(long reads)进行纠错的算法。首先运用拼接算法Wtdbg2将人类基因组第三代长读测序数据拼接成重叠链(contigs),将contigs打碎成相同k碱基长度的短读(k-mers)并存储于哈希表中;然后将同一 Barcode的链读数据打碎成k值相同的短序k-mers,选取每一个k-mer去遍历哈希表寻找与之相匹配的contig编号及位置信息,这样,可快速地将Linked Reads序列分配到contigs中;再利用比对工具Bowtie 2把Linked Reads序列比对到contigs上;最后,使用超几何分布公式统计每个位置碱基的频率,计算P值并识别错误碱基或者单核酸多态性(SNP)。通过Linked Reads测序数据对来自人类不同细胞的基因组数据Human HG00733、Human NA24385、Human CHM1进行纠错验证,结果表明所提算法能够显著提高基因组装的Scaffold长度,而且组装的基因组具...更多
关键词:
高通量测序技术;序列纠错算法;基因组装算法;长读序;链读序列;
- 专辑:
基础科学;信息科技
- 专题:
生物学;计算机软件及计算机应用
- 分类号:
Q78;TP311.1
导师:
张少强;
学科专业:
教育技术学
硕士电子期刊出版信息:
年期:2020年第01期网络出版时间:2019-12-16——2020-01-15