高通量测序中的reads、contig、scaffold

1.什么是read?

高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是读序;就是我们测序产生的短读序列,通常一代和三代的reads读长在几千到几万bp之间,二代的相对较短,平均是几十到几百bp。PE reads 就是 paired-end reads。在测序过程中,一条DNA分子的两端都可以测序。先测其中的一端,获得一个reads,然后再转到另一端测序,获得另外一个reads。得到的这两个reads就是PE reads。PE reads 的获得有助于后期序列组装。

2.什么是contig?

有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig,它们是(片段)重叠群;就是不同reads之间的overlap(交叠区),拼接成的序列就是contig。

Contig N50:Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加,能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3...………Contig 25.将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准。

3.什么是scaffold?

多个contigs通过片段重叠,组成一个更长的scaffold,中文中有脚手架的含义;是比contig还要长的序列,获得contig之后还需要构建paired-end或者mate-pair库,从而获得一定片段的两端序列,这些序列可以确定contig的顺序关系和位置关系,最后contig按照一定顺序和方向组成scaffold,其中形成scaffold过程中还需要填补contig之间的空缺。基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。

Scaffold N50:Scaffold N50与Contig N50的定义类似.Contigs拼接组装获得一些不同长度的Scaffolds.将所有的Scaffold长度相加,能获得一个Scaffold总长度.然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25.将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50.举例:Scaffold 1+Scaffold 2+ Scaffold3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50.Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准.

一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton

多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene。

  • 14
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
三代测序技术是一种高通量的DNA测序技术,它可以直接测定整个DNA分子的序列。与传统的二代测序相比,三代测序具有高速、高质量和低成本等优势。在进行三代测序后,我们需要对产生的reads进行比对,以确定其在参考基因组上的位置和对应的序列信息。 目前市场上有许多针对三代测序reads比对的软件。其最常用且性能良好的软件包括:Minimap2,NGMLR,GraphMap和LAST等。 Minimap2是一种高效的比对算法,它可以对长reads进行准确和快速的比对。Minimap2使用了索引和碰撞桶等数据结构,通过多线程计算提高了比对速度。此外,Minimap2还具有高度的灵活性,可以处理多种类型的三代测序数据。 NGMLR是一种专门针对三代测序reads的比对软件。它基于新一代比对算法来处理长reads,具有较高的比对准确性和速度。NGMLR通过使用模拟退火算法来探索最佳的比对位置,并优化比对结果的质量。 GraphMap是一种利用图论算法进行比对的软件。它通过构建graphs的方式来比对长reads,并使用动态规划算法进行优化。GraphMap不仅可以高效地比对长reads,还具有较低的误配率和较高的比对准确性。 LAST是一种适用于长reads比对的软件。它采用了后缀树的数据结构,并使用剪枝算法来快速寻找最佳的比对位置。LAST不仅可以处理长reads,还支持多种类型的测序数据,适用于不同的应用场景。 总结而言,三代测序reads的比对软件有很多种选择,每种软件都有其特点和适用场景。根据实际需求,选择适合的比对软件可以提高比对效率和结果准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值