转录组组装软件
基因组组装
基因组组装(Genome assembly)是指使用测序方法将待测物种的基因组生成序列片段(即read),并根据reads 之间的重叠区域对片段进行拼接,先拼接成较长的连续序列(contig),再将contigs 拼接成更长的允许包含空白序列(gap)的scaffolds,通过消除scaffolds 的错误和gaps,将这些scaffolds 定位到染色体上,从而得到高质量的全基因组序列 。可简单描述为:reads---->contig---->scaffold---->chromosome。
contig和scaffold
Contig是由多个reads通过组装而形成的长片段。由于测序读段较短、基因组序列通常含有较多重复序列、而且还有测序错误等原因,除了简单的基因组序列外,大部分物种的基因组序列组装都会先产生很多contig,无法一次获得完整的染色体序列。Scaffold为多条contig序列连接形成更长片段,这些contig方向和顺序已经确定,且contig间未知序列(一般用NNNN表示)的长度也获知。
01 Cufflinks
Cufflinks利用Tophat比对的结果(alignments)来组装转录本,估计这些转录本的丰度,并且检测样本间的差异表达及可变剪接。这个软件其实是个套装,包括四个部分