ENCODE计划的发展历史与展望
编译 李升伟
ENCODE计划全称为《人类基因组DNA元件百科全书计划》,启动于2003年,其长期目标是建立一幅人类基因组内功能元件的综合图。其内容包括基因、基因调控相关的生化区域(例如转录因子结合位点、开放染色质和组蛋白标记物)和转录本异构体。这些标记物在调控基因表达中起到功能性作用,可成为候选性顺式调控元件(cCREs)的相关位点。经过十余年的发展,这项计划已经从人类扩展到了模式生物体,尤其是小鼠。通过ENCODE计划第三阶段的工作,已经分别为人类和小鼠建立起100万个和30万个候选性顺式调控元件注释,成为了生命科学界颇富价值的资源库。
概 况
ENCODE计划启动于2003年,是在第一幅完成测序的人类基因组序列图之后的又一个大型国际科研项目。那时候,我们对人类基因组的认识还是相当有限的。举个例子说,尽管有5%的基因组已知处于有胎盘哺乳动物的纯化选择之下,我们对于特异性元件的知识,尤其是就非蛋白质编码基因及其调控区域而言,还局限于少数进行了详细研究的基因座。
从那时起,ENCODE计划就开始了其雄心勃勃的工作,对人类基因组内的元件进行全面的注释,这些元件包括基因、控制性元件和转录本异构体,后来更是扩展到了对几种模式生物体的基因组进行注释。作图性生化测定完成了对这些基因组生化活性的鉴定,得到了大量的候选性调控元件。
ENCODE计划对人类基因组的分析可以分成几个连续的发展阶段。第一阶段(2003-2007年)集中对人类基因组内特定的1%部分进行研究,并对新出现的技术进行评价。这1%中的一半集中研究一些高度研究兴趣的区域,另一半则选择了对基因组学特征范围(例如G+C含量)进行取样研究。基于微阵列的生化测定被用来对种类广泛的细胞株内可转录区域、开放染色质、转录因子和组蛋白修饰相关联区域进行作图,这些实验开始了对人类基因组和转录本组的基本组织化特征进行揭示。第二阶段(2007-2012年)则导入了基于测序的技术(例如染色质免疫沉淀测序(ChIP-seq)和RNA测序(RNA-seq))对整个人类基因组和转录本组进行详细研究。在种类广泛的细胞株中使用了通用性的实验测定如转录本、开放染色质和组蛋白修饰作图,同时在相对较少数量的细胞株中集中进行了更为特异性的实验,如对转录因子结合区域进行作图,对基因组之间的许多调控性蛋白质进行详细注释并探索它们之间的相互关系。对这些细胞内亚细胞腔室(核仁、细胞质和亚细胞腔室)的转录本分析实现了对被分析转录本的定位。
ENCODE计划第三阶段
ENCODE计划第三阶段(2012-2017年)扩大了实验研究的生产力并增加了新的研究类型,建立了通过匹配端标记(ChIA-PET)和Hi-C染色体构象捕捉进行染色质相互作用分析的方法,实现了对染色质的RNA结合和3D组织观察。第二和第三阶段实施了对超过500种细胞类型和组织的9,239项实验(人体7,495项和小鼠1,744项),涵盖下列作图项目:可转录区域和转录本异构体、RNA结合蛋白质对转录本区域的识别、转录因子结合区域、以及荷载特异性组蛋白修饰、开放染色质和3D染色质相互作用的区域。所有这些实验的结果可以通过ENCODE官网 (http://www.encodeproject.org)进行查询获取。这些努力,和许多相关研究项目和许多其他实验室相结合,已经产生了对人类基因组极其丰富的认识,共鉴定了20,225个蛋白质编码基因和37,595个非编码基因、2,157,387个开放染色质区域、750,392个修饰组蛋白区域(对赖氨酸4位上组蛋白H3的单甲基化、双甲基化或三甲基化(H3K4me1、H3K4me2或H3K4me3)、或对赖氨酸27位上组蛋白3的乙酰化(H3K27ac))、1,224,154个转录因子和染色质相关联蛋白质结合区域、845,000个被RNA结合蛋白质占用的RNA亚区域、以及超过130,000项染色质基因座之间的长程相互作用。这些注释已经大大地丰富了我们对人类基因组的认识,从2003年的初步注释到后来种类更加丰富、分辨率更高的知识。事实上,尽管已知的人类蛋白质编码基因的种类只是得到了一定程度的增加,从ENCODE计划开始以来,我们对转录本异构体、长编码RNAs(lncRNAs)和潜在调控区域的鉴定已经得到了巨大的增加。ENCODE计划第三阶段的一个重要部分是调控性作图努力,到目前为止,已经整合和合成为了百科全书的第一个版本,注册量引人注目地达到了90万种人类cCREs和30万种小鼠cCREs。
技术、质量控制和标准
要达到现有注释的目标需要来自ENCODE计划参与各方对技术发展的实质性扩展,并建立标准来保证数据的可复制性和高质量。大多数ENCODE计划第二阶段的分析研究使用了基于序列的读出方法(例如RNA-seq和ChIP-seq)替代了试点阶段的基于阵列方法,在第三阶段则加入了3D相互使用和RNA结合区域的全局作图。在整个计划过程中,针对作图读出结果建立了计算和视觉化方法,并集成了不同的数据类型。
ENCODE计划的一个关键特征是应用了数据标准,包括使用独立复制次数(针对两个或更多生物学样品进行独立的实验),除非排除了材料的有限可得性(例如尸解人体组织)。在8,699项二阶和三阶实验中,有6,101项拥有独立复制。同等重要的是使用了鉴定良好的试剂,例如转录因子结合、染色质修饰和蛋白质-RNA互作的作图位点的抗体。试剂、实验数据和元数据的标准可从ENCODE官网获取:https://www.encodeproject.org/data-standards/。
许多指标,包括测序深度、作图特征、复制一致性、文库复杂性和信噪比,被用来监测每个数据集的质量,并运用了质量阈值。对于少数缺乏标准的实验(例如抗体认证不充足)也进行了报告,但是对于发现的问题也进行了标记。对于没有满足ENCODE确定阈值的实验,有一些数据总比没有好,这是一种折衷。
一项重要的内容是统一数据处理。对于来自重要ENCODE试验的数据进行统一化处理,这些试验包括ChIP-seq、DNase I超敏位点测序(DNase-seq)、RNA-seq和全基因组亚硫酸氢盐测序(WGBS),处理流水线可以为用户获取以用于他们自己的数据处理,途径是从GitHub公司网站(http://github.com/ENCODE-DCC)获取代码,或者从DNAnexus云供应商获取流水线。标准和流水线将随着技术演化和实施过程不断得到进化。
ENCODE联盟建立了优秀的范例,见证了大规模集团化努力对学术界产生重大影响的现实,到目前为止,已经形成了许多其他的国家和国际化计划项目,包括美国国立卫生院路线图表观基因组学项目,癌症基因组图谱(TCGA)、国际人类表观基因组联盟(IHEC)、加拿大表观遗传学项目、环境和卫生研究联盟(CEEHRC)、基因型和组织表达计划(GTEx)、心理学ENCODE(PsychENCODE)、动物基因组的功能注释(FAANG)、全球基因组学与卫生大联盟(GA4GH)、4D核体项目(4DN)、人体细胞图谱和哺乳动物基因组功能注释联盟(FANTOM)。ENCODE计划一直以来与这些科学联盟中的大部分保持着良好的合作关系,共同分享数据质量控制、数据提交和数据统一化处理的标准,并日益有意促进与这些研究联盟中一些关系密切的组织分享使用共同的本体论。其中,来自现已完成的美国国立卫生院路线图表观基因组学项目的数据已经得到了再加工,可以在ENCODE数据库中进行获取,成为了百科全书注释的有机组成。ENCODE计划坚持不懈地与其他联盟合作工作,在保持研究与使用的独立性同时,还与IHEC和GA4GH合作提供使用(网址:http://epishare-project.org),不断提高数据的互操作性,充分发挥学术资源的价值。
ENCODE计划产生的资源
ENCODE计划的宗旨在于为学术界提供有价值、可获取的资源。ENCODE数据及其衍生产品可以从公共可获取数据门户网站(https://www.encodeproject.org)获取,并征得数据提供者的同意、把这些数据免费地向公众提供。原始数据和处理后数据可以直接从亚马逊公共数据集(https://registry.opendata.aws/encode-project/)上进行云获取。数据得到了生命科学界的广泛使用,在ENCODE计划以外学科的科学家们在超过2000种出版物中援引使用了ENCODE数据于种类繁多的课题的研究。由于大多数疾病相关共同变异本是非编码的、在候选性细胞类型特异性顺式调控元件方面显示出实质性的富集,ENCODE计划所衍生的资源,独立地或与来自其它资源库(如GTEx)联合使用,可以有助于鉴定和解释疾病相关性非编码变异本。科学家们大量地使用这些数据,从多个数据集下载关于特异基因座的详细研究报告进行综合性研究。通过某个重要基因组浏览器导航的任何人都可以获取数以千计的生化、功能和计算注释,并可以在任何基因组学尺度上加以显示,并对任何序列变异本进行叠加比较。与基因调控相关的表观基因组学特征图谱已经被集成为离散元件的注册表,这些元件是增强子、启动子或其它调控元件的候选物。专业浏览器SCREEN(http://screen.encodeproject.org)是一个通过ENCODE检索顺式调控元件候选物浏览器的用户界面,可以用来鉴定和研究这些cCREs和相关的ENCODE数据及其它注释。
小鼠ENCODE计划和模式生物体ENCODE计划
模式生物体研究已经对几乎生物学的每个方面都产生了必不可少的深刻认识,包括基因组组织与功能。在ENCODE计划第二阶段,通过小鼠ENCODE计划的实施,在成年小鼠组织和细胞株内进行了对小鼠表观基因组学和转录本组学特征的作图,其中,鉴定了21,978个蛋白质编码区域、32,168个非编码基因、1,192,301个开放染色质区域、722,334个带有修饰组蛋白H3K4me1、H3K4me2、H3K4me3或H3K27ac的区域、和686,294个由转录因子结合的区域。
在ENCODE计划第二阶段,模式生物体ENCODE计划(modENCODE)得以实施,对黑腹果蝇和秀丽隐杆线虫的相关组织、发育阶段和细胞株的转录本组、表观基因组和转录因子结合位点进行了特征化研究。这两种生物体提供了机会来建立涉及各个发育过程的表观基因组学特征和转录本组图谱的详细记录,这在人体中是难以完成的。这两种物种中时间与空间转录本组的深度作图已经大幅度改善了对两种基因组的注释。同样地,对果蝇和线虫内控制基因调控的调控性回路的详细作图已经为基因组组织和功能的普遍原理提供了深刻见解。在被称为《模式生物体调控网络百科全书(modERN)》的模式生物体ENCODE计划结束后,又继续进行了对果蝇和线虫内转录因子结合位点的作图,到目前为止,已经鉴定了超过262种果蝇转录因子和217种线虫转录因子。总而言之,模式生物体ENCODE计划已经对多细胞生物体基因组如何指挥发育和保持内稳态提供了崭新的认识。
在ENCODE计划第三阶段,完成了对取自8种小鼠胚胎发育阶段、每个阶段12种组织的样品的研究,鉴定出了其中的动态性组蛋白及其可获得性、DNA甲基组和转录本组。它向我们的知识库增加了超过1500个数据集,涵盖了对这种哺乳动物产前发育期间表观基因组和转录本组的最综合研究。对这些数据集的综合分析已经大大地扩展了我们对调控哺乳动物发育的转录调控网络的知识,强调了基因调控机制在人类疾病中的作用。至少有214,264种在胚胎小鼠组织中鉴定出的候选物增强子在人类基因组中是保守的。这些潜在的调控元件的人类直系同源物在常见疾病相关联的遗传学变异本方面以一种组织限制性方式得到显著性富集,为研究人类疾病的分子基础提供了信息。
ENCODE计划第三阶段的小鼠数据还包括了超过400项实验的结果,使用专门设计的转基因报告子小鼠,对来自三种胚胎组织、两种发育阶段的cCREs的功能进行评估。这项系统性研究的结果已经帮助预测了cCREs的在体活性。例如,增强子活性的表观遗传学标签的更强烈富集与对应组织内的更高认证率是相关的。
最后,对跨越物种的表观基因组和转录本组图谱的比较已经给可转录区域和调控信息的进化带来了深刻认识。顺式调控元件和其它基因组学特征的组合性组蛋白修饰模式在后生动物中是广泛保守的。这些染色质状态和转录本水平在所有受检物种的不同组织和发育阶段之间是高度相关的。但是,可观比例的特异性顺式调控元件在进化期间经历了序列和功能的周转,提示了一些调控性组件在它们的进化中、在一种保守性调控网络内操作时,显示出实质性的可塑性。
从目前发展的局限性展望ENCODE计划第四阶段及其未来
目前已经非常明显的是,那些控制着转录、染色质组织化、剪切和其它基因组控制与功能的关键问题的DNA元件在人类基因组中是非常致密地编码着的;但是,尽管发现了许多新的元件,对高选择性的元件的注释,尤其是对特定细胞类型或状态高选择性的元件的注释,还是大大地落后的。例如,目前在ENCODE计划中得到注释的转录控制性元件的条件特异性激活或抑制的例子还是非常少的。同样地,来自人体胚胎组织、生殖器官和初级细胞类型的信息是有限的。另外,尽管许多开放染色质区域已经得到了作图,与这些序列结合的转录因子大部分还是未知的,并且鲜有关注致力于分析重复性序列。最后,尽管转录本异质性及其异构体已经在许多细胞类型中得到了描述,代表着剪切后外显子的异构体结构的全长转录本及其编辑已经在仅仅少量细胞类型内得到了描述。
因此,作为ENCODE计划第四阶段的一部分,相当大的努力已经致力于扩展分析的细胞类型和组织,并对更多的转录因子和RNA结合蛋白质的结合区域进行作图。这些努力在很大程度上聚焦于一些参考细胞株,有希望改善相关知识、帮助在其它细胞状态中进行计算或预测。单细胞转录本组捕捉试剂和开放染色质分析也正在被用于增进我们对不同组织和样品的细胞异质性认识。通过modERN计划的推动,将对人体和小鼠进一步进行广泛的所有类型的作图努力,同时将在果蝇和线虫内进行转录因子结合位点的作图。通过使用长读出测序技术,在不同的细胞类型中对全长转录本异构体进行阐明。ENCODE计划将坚持不懈地与其他研究联盟合作,而来自不同研究小组和个体实验室的数据将需要整合成为一个共同的数据仓库。
重要的是,尽管非常大量的非编码元件已经得到了界定,对ENCODE计划鉴定的元件的功能注释还仍然处于其发展的初期。在ENCODE计划的目前发展阶段,基于高通量报告子的分析方法、基于CRISPR的基因组和表观基因组编辑方法和其它高通量方法正在被用来评估数以千计元件的功能、并将这些功能结果与它们的生化标签建立关联。这些靶向功能分析,与生化特征的大规模注释一起,将进一步提升ENCODE数据的价值。
尽管有了这些和其它的努力,可以预期的是,人类基因组内的更多元件将在大量的细胞类型和条件中得到鉴定,它们的活性将得到揭示(大多在单细胞水平),而且它们的生物学功能将得到更为精确的推断。建立起对生物学功能的系统水平认识,将遗传学信息与人体性状进行集成化研究,将大大地改善我们对人类生物学和疾病的认识。
[资料来源:Nature 2020年7月29日]
原文链接:https://www.nature.com/articles/s41586-020-2449-8