前言
二代测序以及最近三代单分子测序的火热,让我们获得高质量基因组越来越来容易,然而基因组注释仍然面临许多挑战。其中一个挑战就是寻找基因(gene finding),训练基因model,选择基因预测软件和注释软件,另一个挑战就是更新合并不同途径注释的基因,目前还没有完美的解决方法,但流行的RNA-seq 数据能够极大程度的帮助我们校准基因。基因组注释不是简单的点击几下鼠标就能够完成的,然而现在有很多工具帮助我们更好的注释基因组。
基因组组装 (Genome assemblies)
进行基因组注释之前,需要对组装的基因组进行质量评估,查看是否可以用来进行基因组注释,继而获得可信的注释结果。有3个指标可以衡量组装的质量。
* Scaffold and contig N50s
* Percent gaps
* Percent coverage
CEGMA提供了另外一种评估方案。CEGMA筛选收集了一些很保守的单拷贝基因(这些基因可以看做在每个真核物种里都存在),这样我们可以通过计算存在于目前的组装版本的基因数目来衡量组装基因组的完整性。
基因组注释
插播一下,基因注释与基因预测的关系
gene predictors find the single most likely coding sequence (CDS) of a gene and do not report untranslated regions (UTRs) or alternatively spliced variants. Gene prediction is therefore a somewhat misleading term. A more accurate description might be ‘canonical CDS prediction’.
Gene annotations, conversely, generally include UTRs, alternative splice isoforms and have attributes such as evidence trails.
The figure shows a genome annotation and its associated evidence.