单细胞多组学时代的基因调控网络推理

引言

细胞调节基因转录以协调细胞活动以响应细胞内和细胞外信号。转录在很大程度上受到转录因子 (TF) 的调节,转录因子是与特定 DNA 序列(DNA 结合位点)结合的蛋白质,可以对目标基因的转录速率产生积极或消极影响。基因组 DNA 与结构蛋白紧密堆积成称为核小体的复合物,核小体是染色质的基本单位,使得大多数基因无法进入转录机制。为了实现转录,需要通过置换紧密堆积的核小体来暴露基因转录起始位点附近的区域(称为启动子)。 DNA 可及性的变化可以通过所谓的先锋 TFs2 的结合来触发。其他转录因子可以与 DNA 的远端顺式调控元件 (CRE) 结合,并与辅因子和其他蛋白质一起,共同实现从基因体 DNA 合成 mRNA 的 RNA 聚合酶蛋白质复合物的募集和稳定。

基因调控网络**(GRN)是网络形式的基因表达调控的可解释计算模型**,数学上也定义为图。基因调控的多个组成部分,例如转录因子、剪接因子、长非编码RNA、微小RNA和代谢物,可以整合到GRN中。在这里,我们关注它们最简单的表示,它只捕获 TF 和目标基因之间的相互作用,其中 GRN 的节点由基因组成其中一些是 TFGRN 的边缘代表基因之间的调节相互作用(图. 1b)。揭示 GRN 的拓扑结构和动力学对于理解细胞身份如何建立和维持至关重要,这对于工程细胞命运和疾病预防具有重要意义。

了解 GRN 是生物学领域的一项长期探索,20 世纪 60 年代描述细菌乳糖 (lac) 操纵子特征的开创性工作就说明了这一点。利用各种高通量实验方法和计算算法重建大规模 GRN 成为系统生物学的主要焦点。从历史上看,GRN 通常是根据数据库中编译的经过实验验证的调控事件组装而成的或从大量转录组数据中的基因共表达中从头推断出来的。如果有足够的转录组学数据,则可以推断 GRN 比从数据库中提取的 GRN 更适合当前的生物学问题,而数据库提取的 GRN 往往具有普遍性。然而,转录组学数据并不能直接捕获许多潜在的调控机制,例如 TF 蛋白丰度和 DNA 结合事件、TF 和辅因子的合作、选择性转录物剪接、翻译后蛋白修饰事件以及基因组的可及性和结构。包含和测量基因调控的这些其他方面有可能产生更好地代表体内基因调控的GRN(图1b)。例如,包含染色质可及性数据允许通过考虑基因是否开放以及在GRN的推断中包含CRE来微调TF-基因链接。

此外,批量分析提供了组织样本中跨细胞类型的混合测量,因此无法解开特定于特定细胞类型或细胞状态的监管程序。单细胞技术的使用克服了这一限制,允许推断不同细胞类型、分化轨迹和条件的GRN(图1c)。因此,随着多模态分析技术的引入26-28,最近出现了新型 GRN 推理方法的爆炸式增长。

在这里插入图片描述
在这篇综述中,我们概述了 GRN 推理的一般原则及其潜在的局限性。此外,我们描述了如何利用多模态读数来推断更准确的 GRN,并对为此任务开发的几种新颖工具进行分类和简要描述。此外,我们还重点介绍了可能的下游 GRN 分析以及如何通过实验评估所获得的结果。最后,我们讨论该领域当前的挑战和未来的方向。

Inference of GRNs (GRN 的推断)

GRN 推理是指使用计算方法从数据中将基因调控(高度复杂且动态的过程)总结为可解释的网络结构的过程。它基于这样的假设:可以在分子数据中观察和测量真正的潜在 GRN 的影响(图 1b)。 GRN 中的相互作用可以是有向的或无向的(分别表示基因之间的因果关系或缺乏因果关系)、有符号的(表示正向或负向的调节模式)和/或加权的(表示相互作用的强度)。

From transcriptomics data 从转录组学数据推断

此类方法适合模型,试图根据其他基因的表达来解释观察到的基因表达的变异性加权基因共表达网络分析 (WGCNA)是最简单和最流行的方法之一。它在整个转录组中进行成对相关,以识别共表达基因的模块。由此产生的网络通常被称为基因共表达网络,由于相关性的对称性,其相互作用是无向的。尽管这种策略可用于以无人监督的方式识别基因模块,但缺乏因果调控联系阻碍了其可解释性,并且通常会产生大量假阳性关联。为了解决这些限制,诸如 GENIE3 及其更快实现的 GRNBoost2 等方法首先根据先前报告的调控活动区分 TF 和目标基因,然后训练模型仅根据TF 的表达,这显著减少了要考虑的相互作用的数量。通过这样做,无向交互转变为有向连接,从而引入假定的因果关系。然而,仅根据转录组学数据进行推断会引入误报,因为涉及基因调控的许多其他机制(例如染色质可及性)被忽略。此外,由于编码 TF 的 mRNA 转录物需要经过许多过程才能成为功能蛋白,因此仅转录物水平可能无法提供足够的信息。这些限制可能会阻碍推理过程,因为事实证明,总体而言,这些方法在准确推断 GRN 方面往往取得了一定的成功

From single-cell transcriptomics data (从单细胞转录组数据)

使用大量组学数据的 GRN 推断方法已经能够表征全基因组调控事件,但在组织等混合样本的情况下,它们无法捕获 GRN 的细胞类型或状态特异性。此外,GRN 推理方法需要大量样本才能生成足够的数据,这在批量分析中可能会变得非常昂贵。

随着单细胞技术,特别是单细胞 RNA 测序 (scRNA-seq) 的出现,GRN 重建方法已被用于推断细胞类型特异性 TF-基因相互作用,以及这些 GRN 在发育过程中发生的动态变化和条件49(图1c)。 SCENIC是第一个针对 scRNA-seq 数据定制的 GRN 推断方法,它是 GRNBoost2方法的扩展,它通过利用 TF 基因共表达模式以及修剪来生成细胞类型特异性的 GRN基于基因启动子区域上 TF 结合基序富集的 GRN 边缘。单细胞测量分辨率的提高还能够识别动态细胞状态及其转变,这些状态可能不容易区分为不同的组,例如在发育、细胞分化或疾病进展过程中。由此产生的 GRN 为关键命运决策所涉及的复杂过程提供了宝贵的见解。 LEAP和 SINCERITIES是 GRN 推断方法的示例,它们利用伪时间排序来推断 GRN 中基因之间的方向性。使用差异测试后获得的对比水平统计数据是识别不同条件之间差异的有效方法,例如健康个体与疾病患者群体之间的差异。该策略不同于计算 GRN 之间的差异,如后面描述“下游 GRN 分析”的部分所述。

单细胞染色质可及性分析(例如单细胞 ATAC-seq (scATAC-seq))的最新进展,可以与单细胞转录组学一起进行,可以在无与伦比的定义。一些早期工作从未配对的多组学数据中推断出 GRN,以研究人类骨髓细胞分化、小鼠胚胎发育和树突状细胞的 HIV 感染。然而,他们没有提供他们的方法作为工具供其他人使用。随后,利用 scRNA-seq 和 scATAC-seq 进行 GRN 推理的新方法激增。

如果两个测量值都来自同一区域,则用于 GRN 推断的多模态数据可以配对;如果它们来自不同的区域,则可以不配对。一些方法不需要匹配每个细胞的染色质可及性和基因表达谱,因为它们要么总结跨组细胞的读数,要么为每种模式独立构建 GRN,然后进行合并步骤。相比之下,其他方法同时对同一细胞中的两种模式进行建模。在这些“同时”方法中,如果使用集成方法匹配两种模式,则仍然可以对未配对的数据进行建模。为了方便使用,其中一些方法(例如 DeepMAPS62、FigR63、GLUE64、scAI65 和 SOMatic66)实现了自己的集成方法。


Fig. 2 | Flow chart of methods for gene regulatory network inference. 基因调控网络推断方法流程图。基因调控网络 (GRN) 推理方法涉及不同的步骤,具体取决于为所研究的样本或细胞生成的数据模式。首先对转录组数据进行预处理和标准化,以构建基因表达矩阵,其中包含样本或细胞中每个基因的转录水平。从其他来源获得已知转录因子(TF)基因的列表,以区分具有调节能力的基因。然后通过构建模型来推断 TF 和目标基因之间的相互作用,该模型试图根据 TF 转录本丰度预测观察到的基因表达,从而生成 TF-基因关联。最后,将获得的交互进行聚合并表示为 GRN

首先对染色质可及性数据进行预处理,并调用峰来构建峰可及性矩阵,其中包含有关样品或细胞中顺式调控元件 (CRE) 开放性的二进制信息。 CRE 根据基因组距离限制与基因相关联,并且使用 TF 结合基序数据库和基序匹配算法预测 TF 与 CRE 结合。这些信息一起用于获得 TF-CRE-基因三联体。最后,这些相互作用被简化为 TF-基因对并聚合成 GRN。当通过转录组学和染色质可及性(多组学数据)对样本进行分析时,会对每种模式进行预处理,并且如果需要,还会整合未配对的模式。有了这两种模式,方法就可以同时利用上述三个建模步骤来构建 TF-CRE-基因三联体,然后将其简化并聚合到 GRN 中。

多模态 GRN 推理方法使用单模态方法的扩展框架来重建 GRN。具体来说,他们根据 TF 基因表达预测基因表达,使用结合基序信息将 TF 分配给可访问的 CRE,并将 CRE 与受基因组距离限制的目标基因相关联(图 2)。对于 TF 结合事件的预测,不同的方法使用不同的、高度异质的 TF 结合基序数据库和预测算法。作为 TF 结合基序数据库由于 TF 的覆盖范围不同,并且预测算法以不同的方式对绑定进行建模,因此即使使用相似的建模策略,GRN 推理方法之间的结果也可能会有所不同。大多数方法允许使用与默认情况不同的 TF 结合基序数据库,但大多数方法修复了所使用的基序匹配器算法 - 除了 SCENIC+,它实现了三种算法:cisTarget、DEM 和 HOMER。此外,GRN 推断方法使用不同的基因组距离截止值将开放染色质区域分配给目标基因。有些人考虑高达 10 kb 的近距离影响,其他人考虑高达 100 kb 的中距离影响,其他人考虑高达 1,000 kb 的大远端影响,还有一些人在原始出版物或源代码中没有指定距离截止(表 1)。鉴于经过功能验证的相互作用在最近距离处大大丰富,并且它们大幅下降了 100 kb,距离截断的差异可能会影响由此推断的 GRN。

执行上述步骤(图 2)后,多模态 GRN 推理方法会生成候选支架网络,该网络由与目标基因相连的 CRE 相关的 TF 三联体组成。为了生成最终的 GRN 结构,使用了不同的数学策略。其中一些策略假设 TF、CRE 和基因之间存在线性关系,而其他策略则假设非线性关系(表 1)。线性模型假设一个变量(例如基因转录本)与另一变量(例如 TF 转录本或 CRE 开放性)成正比变化。相比之下,非线性建模可以适应变量之间更复杂的相互作用,例如协同效应70。尽管人们普遍认为基因表达是一个非线性过程70,但 GRN 的线性建模由于其公式化和解释简单而通常受到青睐。独立于所使用的建模策略,可以使用频率论或贝叶斯概率统计框架来评估所获得的监管相互作用的显着性(表1)。频率主义方法将事件的概率定义为该事件在大量相同实验中发生的次数的比例,而贝叶斯概率将其定义为基于观察到的数据和先前的数据对所述事件发生的置信度的度量信息。贝叶斯方法可以考虑可用的先验知识,但它们通常比频率论方法需要更大的计算资源,这在使用大规模单细胞数据推断全基因组 GRN 时可能是一个限制。此外,贝叶斯推理的成功取决于所使用的先验知识的质量。因此,当没有先验信息或怀疑其不准确时,频率论推断可能更准确。

Downstream GRN analyses 下游 GRN 分析

一旦从组学数据的任何分辨率和组合中推断出 GRN,就可以使用各种下游分析来查询它们,以提供新颖的生物学见解

拓扑分析 Topological analysis

尽管 GRN 是简单且可解释的基因调控模型,但它们仍然可以包含大量基因以及它们之间更多的相互作用。网络中心性度量可以帮助识别哪些 TF 或基因对于网络的连接或信息流更重要(图 3a)。网络中心性度量的一些示例包括度中心性、紧密度中心性、介数中心性和特征向量中心性。这些措施有助于识别在不同生物背景下驱动细胞命运变化的转录因子,例如直接谱系重编程、人类心肌梗塞和小鼠发育。

表征 GRN 拓扑的另一种方法是使用基于谱图理论的方法,该方法探索表示为矩阵时网络的属性。例如,应用于 GRN 邻接矩阵的非负矩阵分解已识别出协同驱动小鼠胚胎干细胞中谱系转变的 TF 组。同样,GRN 拓扑的聚类识别了人类造血细胞分化和巨噬细胞对干扰素 γ 71 的反应中的已知调节因子。然后可以丰富获得的基因调控模块的基因集,以表征其潜在的生物学功能。

在这里插入图片描述a、拓扑分析。网络中心性度量可用于识别高度连接的基因调控网络 (GRN) 内的转录因子 (TF) 或基因的中心。基于其连接性的节点聚类产生了可以与生物功能相关联的子网络模块。

对比分析

GRN 的比较分析可以揭示导致细胞类型、细胞状态、疾病状态、治疗方法和生物体之间差异的重连事件(图 3b)。比较分析最简单的方法涉及 GRN 之间 TF-基因相互作用的成对减法。该方法已确定了淋巴细胞白血病患者 B 细胞亚群中的关键调节因子、用于将成纤维细胞转分化为不同人类细胞类型的 TF 组、候选阿尔茨海默病特异性反式调节因子以及人类 T 细胞中的细胞状态特异性调节因子。它还被用来评估 TF 基因相互作用的进化保守性和跨物种转录调控的适应性。然而,由于 GRN 的稀疏性和噪声性,TF-基因相互作用的直接比较通常不够稳健。

主题建模策略,例如潜在狄利克雷分配(一种最初为自然语言处理而开发的无监督贝叶斯模型),允许生成密集的低维表示,过滤 GRN 结构中的噪声,从而更稳健地捕获监管差异关系。该策略对于预测癌症患者的生存率以及识别人类造血过程中的重新布线事件非常有用

在这里插入图片描述
b 比较分析。通过 GRN 之间 TF-基因相互作用的成对减法来比较不同 GRN 中的连接性,可以深入了解不同细胞类型、个体、条件或生物体之间基因调控的重新布线。

TF 活动的推断

GRN 可以与富集方法结合使用,从转录组数据推断 TF 活性。这种方法允许将观察到的基因表达与 GRN 拓扑集成,以提取哪些 TF 在某些情况下可能具有相关作用(图 3c)。常见的富集方法包括 GSEA、AUCell 和 VIPER等。在批量研究中,通过富集方法推断 TF 活性,例如,可以鉴定可药物癌蛋白 、响应药物治疗的细胞系分层以及鉴定作为乳腺癌转移促进剂的主调节因子 。在单细胞研究中,富集方法已经确定了人类 T 细胞 、少突胶质细胞瘤的调节剂和诱导剂的免疫治疗耐药性的新机制,以及 COVID-19 患者病理成纤维细胞的潜在药物靶标。这些方法最近也已应用于空间解析的转录组学数据,例如,表明参与心肌细胞跨越人类心肌梗死缺血性病变周围边界区域的功能转变的调节因子。

在这里插入图片描述
c. TF 活动的推断。 GRN 可以 与富集方法结合,从转录组数据中推断哪些 TF 可能具有功能活性。然后,从多组学数据推断出的 GRN 可用于推断其他环境中的 TF 活性,例如独立的单细胞、空间或批量转录组学数据。

Perturbation and prediction of cell fate 细胞命运的扰动和预测

GRN 可用于通过以迭代方式将 TF 表达传播到目标基因来模拟随时间变化的基因表达值。有了这个框架,可以通过改变候选转录因子的表达来进行计算机扰动,然后观察它在给定次数的迭代后如何影响所得的转录组(图3d)。然后,可以将模拟值与局部相邻细胞的基因表达进行比较,以估计细胞身份转换概率,类似于 RNA 速度分析。该策略首先由 CellOracle引入,表明 Zfp57在生成和维持小鼠诱导内胚层祖细胞中的作用,随后通过体外扰动实验进行了实验验证。 SCENIC+使用类似的策略将 RUNX3 识别为黑色素细胞向间充质黑色素瘤细胞的潜在驱动因素,展示了 GRN 捕获和模拟复杂调控事件的能力。

在这里插入图片描述
d,计算机微扰实验。 GRN 可用于通过网络在短迭代中传播基因表达的变化来模拟扰动实验。然后,获得的模拟基因表达谱可用于推断细胞命运决定。

学习文献

Gene regulatory network inference in the era of single-cell multi-omics

Badia-i-Mompel, P., Wessels, L., Müller-Dott, S. et al. Gene regulatory network inference in the era of single-cell multi-omics. Nat Rev Genet 24, 739–754 (2023). https://doi.org/10.1038/s41576-023-00618-5
在这里插入图片描述

  • 21
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信小鹏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值