N年前测序还是问题,基因组的解读排在后边,现如今,测序已然不是问题, 成百上千的基因组被测序,这么多的基因组需要解读还真不是件容易的事。以前高大上的工作,注定要飞入寻常百姓家。开发出易用且准确度高的注释工具就很迫切了。
首先来说说编码蛋白基因的注释。真核生物的基因往往具有内含子,不像原核生物那样方便对于编码基因的注释现在有很多工具了,今天要说的是maker-P这款工具,当然这款工具内置了几款基因预测工具,SNAP, augustus,fgenesh,gmhmm,以及整合工具evm等。当然也可以直接根据转录本或蛋白序列生成基因model,再行预测
首先还是重复的鉴定和mask, 今天先不讨论这个,主要想说说编码基因的注释。准备转录本以及蛋白fasta文件,当然也可以是与基因组比对好的gff文件,蛋白可以使用同源物种的,蛋白的比对建议使用spaln这款软件,这是一款相当给力的软件,就是给的说明比较罗嗦,需要花点时间去摸索条件。转录本序列可以是来自RNA-seq的,EST,或者三代测序的等
如果物种还没有gene model,首先需要训练一个model。maker可以训练model供snap使用,训练好之后,使用snap预测,然后根据预测的序列继续训练,基本重复3次就可以了。详细的参数请见Genome Annotation and Curation Using MAKER and MAKER-P
补充一点,想要获得比较精确的注释结果,仍需要人工去校对一些与转录本有冲突的基因model
本来想写个详细的教程,写着写不下去了,不如人家原文的好,有兴趣的可以参见上述文章,甚至私下交流。