基因组组装
基因组组装一般分为三个层次,contig, scaffold和chromosomes. contig表示从大规模测序得到的短读(reads)中找到的一致性序列。组装的第一步就是从短片段(pair-end)文库中组装出contig。进一步基于不同长度的大片段(mate-pair)文库,将原本孤立的contig按序前后连接,其中会调整contig方向以及contig可能会存在开口(gap,用N表示),这一步会得到scaffolds,就相当于supercontigs和meatacontigs。最后基于遗传图谱或光学图谱将scaffold合并调整,形成染色体级别的组装(chromosome).【转载】
具体详细可以仔细阅读https://www.jianshu.com/p/f1ba7c96160f
里面写了很多软件以及练习数据,软件的安装,进行多次试探以及看了多篇文章,最终发现用SPAdes 组装 ,QUAST评估用的比较好。
SPAdes 安装比较简单(http://spades.bioinf.spbau.ru/release3.10.1/manual.html)
wget http://cab.spbu.ru/files/release3.10.1/SPAdes-3.10.1.tar.gz
tar -xzf SPAdes-3.10.1.tar.gz
cd SPAdes-3.10.1/bin/
运行脚本(我的数据是单端测序,选择 -s,根据数据,有多种参数选择 )
sudo python spa