人类基因组包括22条常染色体(1-22),2条性染色体(X,Y)和线粒体DNA(mtDNA)。高通量测序的reads比对至参考基因组是后续数据分析的基础。因此,参考基因组的质量是至关重要的。目前,广泛使用的版本是GRCH37和GRCH38。2009年,the Genome Reference Consortium (GRC)发布了第19版人类基因组GRCH37,也常被称为hg19。GRCH37被广泛应用于数据分析。2013年,GRC发布了GRCH38。但由于注释工具、数据库的不健全及升级基因组工作繁杂,时至今日,GRCH37仍被相当程度地使用。
根据GRC的官方文件,GRCH38是最精确的人类基因组。GRCH38基于金标准Sanger测序组装,读长约为1000bp,精确度是高通量测序的10倍。与GRCH37相比,GRCH38替换了8000个等位基因位点,校正了数个组装错误的基因组区域,补全了gap,添加了着丝粒序列,在178个区域组装了261条alternate loci,丰富了基因组的多样性。
已发表的论文认为GRCH38是GRCH37的重大升级,可提供更精确的生物信息学和基因组学分析。我们设计了实验量化基于GRCH38和GRCH37的数据分析差异。
结果
![888dfbf83feda6f33548f41ea9ef3d5c.png](https://img-blog.csdnimg.cn/img_convert/888dfbf83feda6f33548f41ea9ef3d5c.png)
不算线粒体DNA