高通量测序基因组拼接技术 专业名词解析

本文详细解析了高通量测序中的关键概念,包括Reads、Contig、Scaffold、singleton和unigene等。介绍了基因组拼接过程,如de novo测序、Contig N50和Scaffold N50作为评估拼接质量的标准。同时,涉及EST、Sanger法测序以及基因的Transcript Variant、isoform、Orthology和Paralogy等概念。
摘要由CSDN通过智能技术生成
Reads :
高通量测序平台产生的序列就称为reads。
 
Contig :
拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。
被一些多次重复序列等不确定序列分隔。
 
Scaffold :
scaffold是拼接的意思,即通过构筑文库将一个个contig连接成完整的序列。
基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。
 
singleton :
一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因。
unigene :
多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因。

Contig N50 :
Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Co
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值