1. 前期准备
背景信息:
- GC含量 和 GC分布
- 基因组重复程度
- 基因组大小估计
- 杂合情况
最好的情况是对方能提供已经发表的近源物种。根据近源物种分析以上信息,尤其是GC含量以及对应的GC分布,重复程度。
2. 测序策略
根据基因组大小和具体情况选择个大概的k值,根据“测序X数推导说明.pdf”制定用于构建contig所需的数据量以及所需的构建的文库数量。对于植物基因组一般考虑的是大kmer(>31),动物的话一般在27左右,具体根据基因组情况调整。需要在短片段数据量达到20X左右的时候进行kmer分析。Kmer分析正常后,继续加测数据以达到最后期望的数据量。
3. 组装流程
原始数据-数据过滤-纠错-kmer分析-denovo组装
3.1 数据过滤:
/nas/GAG_01A/assembly/Database/Assembly/Package/Filter_data/目录下有程序、源代码、使用文档、test实例
/nas/GAG_01A/assembly/yanglinfeng/Filter_gz/目录下程序用法和上面一样,读gz压缩文件,省去解压缩
3.2 数据纠错&