谈“泛基因组”之前,我们先聊聊传统参考基因组。高质量的参考基因组是做其他组学研究的前提,比如说我们常接触的转录组,表观组ChIP-seq、CUT&Tag、WGBS和ATAC-seq等。基因组包含生物体的全套遗传信息,研究中通常会将一个物种中重要的品系或者最先测出的基因组作为参考基因组,并以此为基础进行个体或群体水平的遗传变异分析。然而,由于地域、环境等因素的影响,同一物种内的不同个体间存在着丰富的遗传变异,来自单一个体的参考基因组难以覆盖。
单一参考基因组的局限性,由此“泛基因组”应运而生,它是指一个物种中所有个体的基因组信息的集合,包含核心基因组、非必需基因组和特有基因组。
泛基因组的概念[1]
通常情况,对一个物种的多个个体进行测序、组装,然后比较分析,找到它们的共有基因或者基因组序列,这部分就是核心基因组; 剩下的不是所有个体共有的,就是非必需基因组,或者说是可变基因组(下图)。
图:利用多种基因型构建泛基因组[2]
根据下面的拟合曲线,可以将泛基因组分为两类:开放泛基因组(Open Pangenome)和封闭泛基因组(Closed Pangenome)。开放泛基因组指的是物种或种群的泛基因组规模可以持续增加,随着新个体的加入,泛基因组会不断引入新的基因,没有明显的上限。封闭泛基因组指的是物种或种群的基因组规模有限,随着新个体的加入,泛基因组的总大小趋于稳定,不再显著增加。
图:泛基因组大小作为分析中使用的个体数量的函数[2]
传统的基因组研究通常依赖于单一参考基因组,这种方法虽然为基因组学的发展奠定了基础,但也存在显著的局限性。单一参考基因组无法全面反映种群内的遗传多样性,尤其是在高度异质性的物种中(如细菌、植物和人类)。泛基因组的提出弥补了这一不足,它通过整合多个个体的基因组信息,构建出包含核心基因组(所有个体共有的基因)和可变基因组(部分个体特有的基因)的综合基因组框架,从而揭示种群内的遗传多样性和进化规律。基于泛基因组的优势,可以想见未来泛基因组会成为参考基因组的新标准。
图:传统的线性参考基因组与泛基因组的比较[3]
泛基因组的发展史
测序技术的发展,尤其是三代技术在基因组组装和结构变异检测上有了很大的提升,带动了泛基因组的发展。泛基因组相关的文章数量也在逐年走高。
Pubmed发表文章
2005年,Tettelin等在无乳链球菌的研究中首次提出泛基因组的概念,包括所有菌株中都存在核心基因组和部分菌株中特有的非必需基因组。2007年,Morgante等首次将这一概念引入植物研究,但当时限于测序技术和成本,并没有大规模应用。2014年,陆续报道了大豆、水稻和玉米等植物的泛基因组。后来随之测序技术的发展,尤其是三代技术,许多植物的泛基因组得到构建,近两三年相关报道明显增加了不少。
01人泛基因组
传统的人类基因组研究以“参考基因组”(如GRCh38)为基础,但仅基于有限样本进行构建,未能充分反映全球人群的基因组多样性。2023年,人类泛基因组参考联盟构建了有史以来最完整、最准确的人类 "泛基因组 "。DNA 样本来自47个不同种族的个体。据官网信息,2024年预期增长到350个个体。
与GRCh38参考基因组相比,该人类泛基因组新增了1.19亿个碱基对的常染色质多态性序列