经典:基因组测序数据从头拼接或组装算法的原理

本文介绍了基因组测序数据的从头拼接或组装过程,涉及contig和scaffold的概念,并重点讲解了Overlap-Layout-Consensus(OLC)算法和基于de Bruijn Graph的算法,如Velvet软件的工作原理。内容涵盖基因组组装的核心算法和常用软件的性能比较。
摘要由CSDN通过智能技术生成

欢迎关注微信公众号:AIPuFuBio,了解更多精彩


基因组测序数据的拼接/组装 (图片来源:google)


每一个物种的参考基因组序列(reference genome)的产生都要先通过测序的方法,获得基因组的测序读段(reads),然后再进行从头拼接或组装(英文名称为do novo genome assembly),最后还原测序物种的各条染色体的序列,即ATGC四种碱基的排列顺序。

之所以要进行基因组拼接,是因为现在的测序技术还只能测较短的序列,无法直接获取一整条染色体的序列。如一代测序(Sanger测序)一般可测1kb左右的序列;二代测序(next-generation sequencing),一般可测50~500bp;三代测序虽然可测100kb甚至更长的序列,但现在三代测序技术还不是很成熟,还有较高的测序错误率。


基因组测序数据的从头组装过程,可简单描述为:reads---->contig---->scaffold---->chromosome,具体如下所示:


<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值