文章来自公众号:机器学习与多组学数据分析
近年来,随着单细胞测序技术的发展,通过染色质可及性、DNA甲基化和转录组等多组学层面探索调控图谱,为揭示不同细胞类型功能的潜在调控基础提供了独特的机会。虽然最近出现了同时测定,但不同的组学通常是独立测量并产生未配对的数据,这就需要有效和高效的电子多组学整合。
在计算上,整合未配对的多组学数据时面临的一个主要障碍是不同模态的不同特征空间。一种快速的解决方法是基于先验知识将多模态数据转换到一个共同的特征空间并应用单一组学数据集成方法,但会导致信息丢失;另一种选择是通过非线性流形对齐来匹配来自不同组学层的细胞,这完全消除了先验知识的要求,可以减少模态间信息丢失该,但该技术大多应用于细胞类型数量有限的相对较小的数据集。
不久前,北京大学生命科学学院蛋白质与植物基因研究国家重点实验室高歌的研究团队在此基础上,引入一个模块化的框架—GLUE(图链接统一嵌入),用于整合未配对的单细胞多组学分析数据并同时推断调控相互作用。并将其研究成果发布在Nature Biotechnology上。
DOI: 10.1038/s41587-022-01284-4
摘要速览
在这里,研究者们提出了一个名GLUE(图链接统一嵌入)的计算框架,该框架通过显式地建模跨组学层的调控相互作用来弥合这一差距。系统的基准测试证明,对于异构的单细胞多组学数据,GLUE比最先进的工具更准确、鲁棒和可扩展。研究者们将GLUE应用于各种具有挑战性的任务,包括三重组学整合、整合的调控推断和超过数百万个细胞的多组学人类细胞图谱构建,其中GLUE能够纠正以前的注释。GLUE具有模块化设计的特点,可以针对新的分析任务灵活扩展和增强。
结果讨论
1、基于图引导嵌入的非配对多组学整合
受前人研究的启发,研究者们将细胞状态建模为通过变分自编码器学习的低维细胞嵌入。考虑到它们在生物性质和检测技术上的内在差异,每个组学层都配备了一个单独的自编码器,该自编码器使用针对层特定特征空间定制的概率生成模型。
利用先验的生物学知识,研究者们提出使用一个基于知识的图(引导图)来显式地建模跨层调节相互作用,以链接特定层的特征空间;图中的顶点对应不同组学层的特征,边代表有符号的调控相互作用。当迭代过程收敛时,图可以通过比对过程的输入进行优化,并用于面向数据的调控推断。
图1.GLUE框架的体系结构
2、系统对标显示出优越的性能
采用标准模式(ATAC峰如果重叠在基因体或近端启动子区域,则与RNA基因相连)来构建GLUE的指导图,并对其他基于转换的方法进行特征转换。考虑到目前关于调控相互作用的知识还远未完善,一个有用的集成方法必须对这些不准确的信息具有鲁棒性。
因此,研究者们通过随机替换不存在的相互作用的不同比例,进一步评估了方法对调节相互作用腐败的鲁棒性。对于所有3个数据集,GLUE即使在腐败率高达90%的情况下也表现出最小的性能变化,表明其具有较好的鲁棒性。与此一致,研究者们发现使用定义在较大基因组窗口中的替代指导图对集成性能的影响最小。
图2.系统的整合绩效基准
3、GLUE实现有效的三元组学整合
GLUE通过对引导图中边符号的建模,天然地支持了调节效应的混合。这样的策略避免了以往方法需要的数据反演,可以打破数据稀疏性和底层分布。对于三元组学指导图,研究者们通过负边将基因体mCH和mCG水平与基因联系起来,而可及区域与基因之间的正边保持不变。
这种三重组学整合也揭示了不同表观遗传调控机制的定量贡献。在mCH、mCG和染色质可及性中,研究者们发现mCH水平对皮层神经元基因表达的预测力最高。当考虑所有表观遗传层时,表达可预测性进一步增加,表明存在非冗余贡献。在不同层次的神经元中,DNA甲基化(尤其是mCH)对深层基因表达的预测性略高于浅层。
图3.小鼠皮层的三组学整合
结论总结
结合组学特异性自编码器与基于图的耦合和对抗对齐,研究者们设计了GLUE框架用于非配对单细胞多组学数据整合,具有优越的准确性和鲁棒性。通过显式地建模跨组学层面的调控相互作用,GLUE独特地支持未配对多组学数据集的整合调控推断。值得注意的是,在贝叶斯解释中,GLUE调节推断可以看作是一个后验估计,可以随着新数据的到来而不断细化。
相信GLUE作为一个模块化和可泛化的框架,为在单细胞分辨率下通过大规模多组学整合有效地绘制基因调控图提供了前所未有的机会。GLUE的整个软件包,以及教程和演示案例,可在https://github.com/gao-lab/GLUE上在线提供给社区。