基因调控网络重建:利用单细胞多组学数据

摘要

推断基因调控网络(GRN)是生物学中的一项基本挑战,旨在揭示基因与其调控因子之间的复杂关系。破译这些网络对于理解驱动许多细胞过程和疾病的潜在调控串扰起着至关重要的作用。测序技术的最新进展促进了最先进的 GRN 推理方法的发展,这些方法利用匹配的单细胞多组学数据。通过采用不同的数学和统计方法,这些方法旨在重建更全面、更精确的基因调控网络。在这篇综述中,我们简要概述了 GRN 推理方法中常用的统计和方法基础。然后,我们比较和对比单细胞匹配多组学数据的最新最先进的 GRN 推理方法,并讨论它们的假设、局限性和机会。最后,我们讨论了这一快速发展领域有望进一步发展的挑战和未来方向。

Introduction

基因的转录调控支撑着所有重要的细胞过程,并由许多分子调控因子错综复杂的相互作用来协调。位于基因调控最前沿的是转录因子 (TF),它与称为顺式调控元件 (CRE)DNA 特定区域相互作用,例如启动子增强子TF、CRE 和基因之间的相互作用共同形成基因调控网络 (GRN),该网络控制细胞身份细胞命运决策,并在各种疾病的发生进展中发挥重要作用。随着高通量组学技术的进步,分析基因调控涉及的许多分子特征已成为可能。然而,这些网络的重建面临着重大挑战,需要开发强大而高效的计算工具来揭示 GRN 的调控相互作用。

最早的计算 GRN 推断方法是为了利用微阵列RNA 测序 (RNA-seq) 技术的数据而开发的,该技术可定量测量整个细胞群的 RNA 表达(图 1)。这些方法通过使用关联测量(例如相互信息和相关性)识别共表达基因来识别潜在的调控关系。然而,这些方法无法纳入驱动基因调控的表观遗传变化信息限制了它们评估调控结合位点(包括转录因子)可及性的能力。这些限制通过从批量转录组学扩展到批量多组学(图 1)测序技术(例如 ATAC-seq)而得到缓解,该技术可用于识别可能与目标上游或下游 TF 结合的染色质可及区域基因; Hi-C,一种测量全基因组染色质构象以捕获结构变化和染色质相互作用的技术; 和 ChIP-seq,捕获全基因组蛋白质与 DNA 相互作用,包括增强子和启动子的 TF 结合位点。
在这里插入图片描述
然而,尽管批量测序技术能够揭示机制见解以更可靠地捕获调控关系,但它们缺乏捕获细胞类型和/或状态特定信息的能力

单细胞组学技术的出现彻底改变了我们以单细胞分辨率揭示细胞异质性的能力(图 1)12。通过单细胞 RNA-seq (scRNA-seq)、单细胞 ATAC-seq (scATAC-seq)、单细胞 Hi-C (scHi-C)和单细胞 ChIP-seq 等技术生成的数据(scChIP-seq)引起了人们对开发新一代计算方法的新兴趣,这些方法现在可以在细胞类型细胞状态和单细胞水平推断调节因子与其靶基因之间的调节关系。此外,单细胞组学技术已经从分析单一模式(例如 scRNA-seq、scATAC-seq)发展到以单细胞分辨率捕获多种模式(即“单细胞多组学”)。一系列新颖的测序平台能够同时分析单个细胞内的 RNA 和 CRE 可及性**,例如 SHARE-seq 和 10x Multiome。因此,这些技术催生了新的 GRN 推理方法的发展,这些方法利用这些数据进一步全面地概括细胞类型和细胞状态水平的调控网络

然而,浏览多种 GRN 推理方法并了解它们如何推断监管联系可能是一项具有挑战性的任务,特别是对于那些可能没有定量背景的研究人员而言。此外,可用的 GRN 推理方法数量庞大,因此很难确定针对给定感兴趣的研究问题最合适的方法。为此,我们的目标是通过对为配对 scRNA-seq 和 scATAC-seq 数据开发的最新 GRN 推理方法进行分类,回顾 GRN 推理的方法基础,为研究人员和方法开发人员提供帮助。

我们首先简要描述 GRN 推理方法的历史及其从批量测序到单细胞测序的演变,包括常用的 GRN 推理的基本理论基础。为了获得更全面的概述,鼓励读者阅读之前广泛涵盖早期 GRN 推理方法的评论。因此,我们详细回顾了最近使用单细胞配对多组学数据重建 GRN 的方法,包括它们的优点和潜在的局限性。最后,我们讨论了 GRN 推理方法当前面临的挑战以及我们希望能够激发该领域未来方法开发的潜在方向。

GRN 推理的方法论基础

GRN 推理依赖于统计和算法原理来揭示基因与其调节因子之间的调节联系。通过利用相关性、回归、概率模型、动态系统和深度学习等各种技术(图 2),研究人员可以有效地建模和推断生物系统的调控架构。在这里,我们简要讨论常用的统计方法以及当前配对多组学数据的 GRN 推理方法的基本假设。
在这里插入图片描述

Correlation-based approaches(基于相关性的方法)

重建 GRN 最常见的方法之一是受“协同犯罪”概念的启发。换句话说,共表达的基因被认为是功能相关或共同调节的。例如,转录因子及其假定靶基因的共表达可能表明两者之间存在调节关系。类似地,可以通过关联 CRE 的可及性推定靶基因的表达水平确定 CRE 及其靶基因。常用的关联度量包括参数 Pearson 相关性和非参数 Spearman 相关性,它们分别可以捕获线性和非线性关联(图 2)。线性相关可以有效地检测 TF 表达或 CRE 可及性的增加导致基因表达成比例变化的关系。然而,非线性相关性可以捕获更复杂的关系,这可以更好地概括 TF、CRE 和基因之间的调控相互作用。其他方法包括互信息,这是一种基于信息论的非参数方法,用于测量两个变量之间的依赖性。

虽然相关性分析可以为潜在的监管关系提供有价值的见解,但值得注意的是,单独的相关性具有明显的局限性。例如,如果两个 TF 的表达水平相关,则相关性无法识别哪个是调节因子和靶标,也不能排除它们受到第三个 TF 调节的可能性。此外,相关性度量将难以区分直接或间接关系,包括何时可能存在混杂因素。然而,整合来自其他模式(例如 ATAC-seq)的信息有可能缓解这些限制,因为它们提供了额外的证据,表明调节因子和下游靶基因之间存在方向性关系,即 TF 必须结合到染色质的可及区域(accessible region)来调节其靶基因

Regression models (回归模型)

回归提供了一种捕获响应变量与多个预测变量之间关系的方法。在 GRN 推断的背景下,响应变量可以是基因的表达,分别根据多个 TF 和 CRE 的表达或可访问性(accessibility of multiple TFs and CREs)进行回归(图 2)。通过明确估计每个预测变量对响应(例如基因表达)的影响,回归模型中的系数(例如 TF 或 CRE)可以解释为关联的强度,而系数的符号可用于推断监管相互作用的方向

在使用普通最小二乘回归推断 GRN 的情况下,数据可能包含数千个 TF 或 CRE,具体取决于从目标基因的转录起始位点搜索的距离。重要的是,包含大量预测变量通常会导致过度拟合,使模型变得过于复杂泛化能力较差。此外,如果存在相关的预测变量**(correlated predictors),回归模型可能会变得不稳定,这在生物学背景下很可能存在,因为 TF 可以相互调节。为了解决这些问题,更现代的惩罚回归方法(例如 LASSO)引入了基于系数绝对大小的附加惩罚项,有效地将所选系数缩小到零,从而降低了最终估计监管网络的复杂性。此外,非参数方法(例如基于树的回归)不假设数据中存在任何固定结构,但可解释性较差**,构建时计算量更大。

Probabilistic models (概率模型)

GRN 推理的概率模型通常采用图形模型的形式,它捕获变量(例如 TF 及其目标基因)之间的依赖性。这些方法通常旨在对每个 TF 与其假定目标基因之间的调控关系的存在和/或强度进行建模,这是通过找到可以解释给定训练数据的最可能的关系来估计的。这些概率测量可以在下游分析之前对监管相互作用进行过滤和优先排序,从而实现更有针对性的调查。然而,这些方法通常假设基因表达遵循特定的分布,例如高斯分布,这可能不适用于所有基因。

Dynamical systems(动力系统)

虽然回归和基于概率的方法直接根据预测变量对响应变量进行建模,但基于动态系统的方法试图对随时间演变的系统行为进行建模。在 GRN 推断的情况下,人们可能对估计基因相对于各种因素的表达感兴趣,例如 TF 的调节作用、基础转录和随时间变化的一般随机性(图 2)。这些效应可以建模为微分方程中的参数,微分方程可以根据数据或文献进行估计。

与之前讨论的方法相比,动力系统模型具有明显的优势,因为它们捕获了可能影响基因表达及其随机性的各种因素。估计模型是可解释的,其中每个参数对应一个特定属性。然而,较大网络的复杂性以及对先前领域特定知识的依赖可能会使这些模型的可扩展性较差,并且容易出现发表偏差。

Deep learning models(深度学习模型)

深度学习模型是一类机器学习技术,近年来在包括生物信息学在内的广泛学科中获得了极大的关注。这些模型基于人工神经网络,可用于多功能架构来执行各种任务(图 2)。例如,多层感知器可以解决回归式问题来估计函数,而自动编码器可以用于降维。特别是,自动编码器可以具有多种类型的输入,并学习它们之间的共同连接,代表潜在的监管关系。

bulk组学时代的 GRN 推理

Bulk transcriptomics (转录组)

微阵列和 RNA 测序 (RNA-seq) 等高通量分析方法是最早捕获样本整体转录组图谱的实验方法之一。为此,人们开发了计算方法,通过分析数千个基因的表达模式来揭示转录因子与其靶基因之间的潜在调控联系。著名的例子包括 ARCANE、CLR 和 MRNet,它们利用互信息等关联指标来量化 TF 与其目标基因之间的关系。然而,这些方法的一个关键限制在于它们的成对关联计算,未能将基因表达建模为多个调节因子的函数。基于回归的方法,例如 GENIE3,通过将基因表达建模为多个调节因子的函数来解决这一限制,这可以更准确地模拟调节因子和靶基因之间的调节关系。然而,这些方法的一个重要限制是它们仅依赖于转录组学数据,从而忽略了已知在基因调控中发挥关键作用的表观遗传修饰

多组学

基因调控和转录过程有许多分子机制和参与者,例如表观遗传修饰剂,它们参与复杂的相互作用来调节基因表达。这些分子调节因子在启动、促进、增强和调节基因转录方面发挥着重要作用。因此,为了构建更全面的GRN,重要的是要包含额外的调控因子DNA元件,例如增强子和沉默子,以及包括染色质构象在内的结构信息。例如,ATAC-seq 可用于生成更全面的 GRN,如 GRaNIE、PECA 和 TimeReg所使用的那样。 DISTILLER 和 ChIP-Array 2 等方法整合 RNA 和 ChIP-seq 数据来识别靶基因的 TF 和调控序列。 Hi-C 还可用于捕获 DNA 构象,并与 ATAC-seq 和 RNA-seq 数据集成以构建多组学 GRNs。总体而言,各种多组学数据集的整合和统计模型的使用有可能增强我们对基因调控的理解,并揭示不同生物背景下转录因子与其靶基因之间的动态相互作用。

尽管有优点,bulk 转录组学和 bulk 多组学 GRN 推理方法都有共同的局限性。任何仅基于大量数据的分析都很难推断细胞类型特异性信息,因为组学概况是在细胞群中平均的,从而消除了细胞异质性的任何信号。然而,众所周知,各种疾病,例如糖尿病和癌症,完全或部分由特定细胞类型群驱动。

单细胞时代的 GRN 推理

Single-cell omics (单细胞组学)

单细胞组学技术的诞生缓解了bulk组学技术中 GRN 推断的许多限制。这些技术提供了对不同组织的细胞和分子组成的详细了解,超越了bulk测序方法的能力。转录组学是第一个通过 scRNA 测序进入单细胞水平的技术。许多流行的 GRN 方法被设计为利用 scRNA-seq 数据,包括基于回归(SCENIC、scTenifoldNet)、**动力系统(SCODE)信息论(PIDC)**的方法。

如今,测序技术可以通过 scATAC-seq、scHi-C 和 scChIP-seq 来量化其他模式,从而促进细胞内分子间动态的全面捕获。 DeepTFni 等方法已被开发出来,可以独立利用这些附加模式来提供 GRN 推理的替代方法。其他方法旨在结合来自多种模式的信息。例如,CellOracle、MICA 和 IReNA 分两个阶段分别使用 scRNA-seq 和 scATAC-seq,其中涉及过滤假定的监管链接,然后构建最终的 GRN,反之亦然。或者,可以从不同的模态构建单独的 GRN,然后组合起来生成单个集成的 GRN。

已经开发了一系列其他方法来整合来自不同细胞的多组学数据,并同时学习不同模式之间的共享关系以重建调控网络。这包括 DC3、scREG 和 scAI,它们使用矩阵分解技术将无与伦比的多组学数据投影为低维表示,从而将它们集成在一起。同样,GLUE 和 scTIE 通过将不同模态投影到低维嵌入来集成多组学数据,但它们使用自动编码器,这是一种基于深度学习的技术,可以从数据中推断出复杂的结构。一旦学习了捕获组学层之间共享模式的低维表示,这些方法就使用映射来提取多组学特征来推断相互作用(例如,CRE 和基因之间),这可用于重建 GRN 。这些方法还可以应用于匹配的 scRNA-seq 和 scATACseq 数据,将它们视为单独的细胞群。然而,由于它们的主要目的不是用于 GRN 推理,因此我们不会在本文中对其进行回顾。

Towards matched single-cell multi-omics (匹配的单细胞多组学)

随着从批量 RNA 到批量多组学的演变涉及其他模式的开发和集成,多模式单细胞组学技术引发了新一波技术浪潮,这些技术可以分析同一细胞内的不同模式,通常称为匹配或匹配配对数据。这些技术包括 SNARE-seq,它可以对转录组和染色质可及性进行联合分析; CITE-seq,一种捕获转录组和细胞表面蛋白标记物的方法;配对标签,一种同时分析组蛋白修饰和转录组的高通量方法;和 ASAP-seq,它以单细胞分辨率捕获转录组、染色质景观和蛋白质标记表达。重要的是,测序技术的这些进步提供了利用多模式数据中嵌入的信息的机会,而在整合不匹配的多组学数据时,这可能是无法实现的。尽管如此,已经开发了一系列计算技术来匹配来自不同模态的单细胞,或估算缺失的模态,从而提高多模态单细胞数据的可用性和可访问性。

最新的 GRN 推理方法旨在利用这些新数据构建更全面的基因调控模型,从而推断出更强大、更复杂的调控网络。然而,它们的方法和复杂性各不相同,并且并非所有单细胞多组学 GRN 推理方法都能重建细胞类型或状态特定的调控网络。因此,可能很难理解它们的差异以及在不同情况下的适用性。在这里,将用于配对多组学数据的最新 GRN 方法分为五个主要类别(相关性、回归、概率模型、动力系统和深度学习),并讨论它们的共同和独特特征。重要的是要承认,分类并没有完全封装每种方法所采用的整个统计和方法框架,因为许多方法结合了多种技术来重建 GRN。尽管如此,通过简化分类,我们打算为读者提供对指导这些方法的基本原则的广泛且易于理解的理解。图 3 列出了这些方法。我们希望这一全面的概述能够帮助研究人员了解当前 GRN 推理方法的发展,并促进对其应用做出明智的决策。

在这里插入图片描述

Correlation-based methods(基于相关性的方法)

这些方法使用相关性来推断调控元件对之间的潜在调控关系,例如 CRE 与基因TF 与 CRE(图 4)。仅考虑与推定目标基因的 TSS 之间的用户指定距离内的 CRE,并且 TF-CRE 连接的推断通常包括 TF 基序富集分析(图 4)。虽然基于相关性的方法乍一看似乎很相似,但它们在相关性度量的选择和实现方面存在一些关键差异。例如,STREAM 和 scMEGA 使用 Pearson 相关性来捕获线性关系,而 FigR 和 TRIPOD 使用 Spearman 相关性来捕获非线性关系。
在这里插入图片描述
FigR 和 STREAM 旨在识别调控模块,捕获细胞类型或状态的关键过程。简而言之,FigR 筛选具有调节染色质域 (DORC) 的基因,定义为具有用户定义数量的显着相关 CRE 的基因。因此,FigR 产生专门由 DORC 组成的 GRN。类似地,STREAM 构建的网络中的模块由共表达基因和可共访问的 CRE 组成。然后通过基序富集分析确定这些模块最可能的调节转录因子。

另外,scMEGA 和 TRIPOD 旨在确定构成整体 GRN 的各个监管环节。 scMEGA 使用 TF 基序富集和 CRE 可及性与基因表达(包括 TF 表达和基因表达)之间的 Pearson 相关性来选择候选 TF 基因调控对。然而,TRIPOD 的目标是寻找 TF-CRE 基因的调控三重奏。通过计算基因表达与 TF 表达和 CRE 可及性的相关性,同时调节已识别的 CRE 基因和 TF 基因与其他成分的关联,可以确定这三者。更准确地说,CRE-基因关系以 TF 表达为条件,通过匹配具有最接近 TF 表达值的细胞对,并且 CRE 可及性和基因表达的差异用于相关性分析。因此,检测到的 CRE 基因链接不会被 TF 表达混淆。同样,TF-基因关系以 CRE 可访问性为条件,以解释不同的 CRE 可访问性会改变 TF 结合能力并从而调节基因表达的影响。

Regression-based methods(基于回归的方法)

考虑到基因可能有多个 TF 调节因子,反之亦然,DIRECT-NET、SCENIC +、Pando、scREMOTE 和 RENIN 利用回归来模拟基因表达作为多个调节因子的函数。这些方法可以进一步分为参数回归(Pando、scREMOTE、RENIN)和非参数回归,例如基于树的回归(DIRECTNET 和 SCENIC +)
在这里插入图片描述
一种方法是普通最小二乘回归,其最简单的形式假设基因与其调节因子之间存在线性关系。 Pando 和 scREMOTE 将基因表达模型构建为 TF 表达和 CRE 可及性的线性函数。 Pando 通过直接对 CRE 可及性和 TF 表达的乘积进行基因表达回归来估计每个 TF 对基因的调节作用,而 scREMOTE 将调节潜力作为回归中的权重,根据 TF 基序富集度、CRE 可及性和染色质构象进行估计。或者,RENIN 使用两个带有自适应弹性网络估计器的模型,这是一种惩罚大系数的正则化技术,从而形成更稀疏的监管网络和更少的误报。第一个模型捕捉 CRE 可及性和基因表达之间的关系,以识别可能调节靶基因的 CRE。第二个模型对 TF 表达和基因表达进行建模,其中结合了第一个模型的结果来识别 TF 基因链接。在所有情况下,线性模型的推断系数都可以解释为 TF 对构成 GRN 的靶基因的调节作用。重要的是,Pando、scREMOTE 和 RENIN 的一个明显缺点是它们仅限于识别 TF 和 CRE 等调节因子与其靶基因之间的线性关系

DIRECT-NET 和 SCENIC+ 可以缓解这一限制,因为它们可以通过使用称为梯度树提升的基于树的回归算法来捕获非线性关系。 DIRECT-NET 提供了一个有价值的功能,因为它计算每个 CRE 可访问性在预测基因表达方面的重要性,并随后在推断 TF 基因链接之前将它们标记为高、中或低置信度 CRE。这允许更好的控制,因为只有高置信度的 CRE 可以保留用于进一步的下游分析。虽然 DIRECT-NET 和 SCENIC + 都使用 TF 基序富集来建立 TF 基因对,但 SCENIC + 使用内部生成的基序纲要,其中包含超过 30,000 个独特的位置权重矩阵,其中每个 TF 平均有 5 个分配的基序。与将它们折叠成共有序列(例如典型基序富集分析中使用的序列)相比,这在预测 TF 结合位点方面可能具有明显的优势,因为它可以捕获更广泛的 TF

Probabilistic models (概率模型)

Dynamical system-based methods(基于动力系统的方法)

Deep learning-based methods(深度学习模型)

挑战与机遇

Data sparsity(数据稀疏性)

与大容量数据相比,单细胞数据通常具有明显的稀疏性和噪声,这可能会影响稳健的 GRNs 的构建。例如,虽然bulk数据中零的比例估计约为 10%-40%,但单细胞数据中零的比例可能高达 90%。单细胞数据的稀疏性可部分归因于技术原因,例如文库制备和序列扩增效率低下。此外,单细胞技术旨在捕获单个细胞的表达谱,这些细胞通常表现出许多基因的低表达水平,导致捕获的 RNA 转录本数量有限。相比之下,bulk测序技术聚合了许多细胞的分子表达谱,使它们能够捕获更多计数,但代价是丢失细胞类型水平的异质信息。重要的是,单细胞数据中存在高比例的零可能会导致基因表达相关性的估计存在偏差和不稳定,从而使 GRNs 的准确推断进一步复杂化。许多 GRN 推理方法旨在通过将多个相似细胞聚合成元细胞(多个相似细胞的平均表达谱)来解决这些问题。然而,这可能会导致相关性夸大,从而可能导致错误的监管关系的推断。其他策略包括插补,其中使用各种方法估计缺失值,包括概率模型和潜在空间嵌入。尽管如此,我们预计随着测序技术的不断进步,该领域将取得重大发展,从而提高测序深度。此外,出现了许多专门用于处理稀疏数据的统计和生物信息学方法,展示了管理 GRN 推理中数据稀疏性的方法学进步。

Establishing causality(建立因果关系)

GRN 推断的另一个重大挑战建立调节因子与其目标基因之间的因果关系。大多数方法通过某种关联度量来推断监管关系,例如相关性。类似地,回归和概率方法对变量之间关联的强度和方向进行建模。然而,由于可能存在混杂因素仅这些指标和模型不足以建立因果监管关系。然而,整合捕获基因调控不同方面(例如染色质可及性和构象)的多种模式可以为真正的调控联系提供进一步的证据。例如,TF 结合位点与其靶基因之间存在染色质环表明存在调节关系,因为它表明 TF 可以与靶基因的调节区域(例如启动子或增强子区域)物理结合。此外,实验方法(例如扰动或时间序列实验)提供了一种更直接的方法,通过扰动调节因子并观察其各自目标基因表达水平随时间的变化来推断调节联系。例如,如果干扰 TF 导致其靶基因表达水平受到抑制或激活,则 TF 与其靶基因之间更有可能存在调节关系。在同一细胞内捕获这些信号凸显了匹配的多组学数据的优势,因为不同模式之间的关系是从相同的生物背景中得出的,从而提高了监管连接的质量和准确性。

Validation

鉴于重建的 GRN 旨在重现感兴趣的生物过程,GRN 的验证是一个关键且开放的挑战。因此,GRN 验证需要对重建的 GRN 与“真实情况”之间的一致性进行彻底调查。为了实现这一目标,从湿实验室实验(例如功能扰动实验)推断出的地面真实调控网络至关重要功能丧失和获得实验是通常用于通过观察调节因子表达水平的变化是否导致其假定目标基因的激活或抑制来更自信地建立调节连接的方法CRISPRcas9 技术的出现允许对这些调控相互作用进行高通量筛选,显着提高微扰实验的效率和输出。使用 CRISPRi 增强子平铺筛选,还可以针对非编码区域(例如增强子)来量化 CRE 的变化如何影响下游靶基因,从而提供一种在 CRE 和靶基因之间建立真正的调控联系的方法。值得注意的是,实验验证可能成本高昂且耗时,对于匹配的分析技术尤其如此。尽管如此,ISSAAC-seq 等测序技术的进步为单细胞模式的联合分析提供了更实惠的选择,并为改善匹配分析技术的获取铺平了道路。因此,我们预计,随着测序成本因效率和灵敏度提高而降低,重建 GRN 的实验验证将变得更加普遍

Benchmarking

同样,需要对 GRN 推理方法进行验证和基准测试,以改善当前的局限性。 GRN 推理方法在其重建的调控网络中表现出相当大的多样性,这在为单细胞数据设计的方法中尤其明显。例如,单细胞 GRN 推理方法的基准研究突显了它们在实验和计算机(模拟)数据上的准确性和一致性较差,特别是当增加推理过程中考虑的基因数量时。毫不奇怪,与实验数据集相比,一些方法在计算机上应用时表现更好,这可能是因为与真实的生物 GRN 相比,计算机网络具有更简单的网络架构这一事实可以解释这一点。然而,鉴于缺乏建立实验事实的黄金标准实验,使用计算机 GRN 是一个很好的中间选择,也是目前验证和基准测试 GRN 推理方法的流行策略。

计算机 GRN 作为地面实况模型替代品的功效取决于它们准确建模 TF、CRE 和基因之间复杂的直接和间接关系的能力。这仍然是一个重大挑战,因为用于生成计算机 GRN 的基本假设通常是对真实生物网络中基本监管连接的过度简化。计算机上的多组学 GRN 也很缺乏,有研究提出了一种多组学 GRN 模拟方法 (scMultiSim),该方法旨在捕获不同组学层(RNA 和 ATAC)之间的调控相互作用。虽然这是朝着构建更加生物学精确的计算机 GRN 迈出的重要一步,但也存在一些重要的限制,包括缺乏染色质可及区域的输出。因此,在对多组学 GRN 推理方法进行基准测试时,基因和调控域之间不存在可以作为基本事实的联系。此外,由于缺乏可访问的调控区及其各自的序列,不可能进行 TF 基序富集分析来推断和验证重建的 GRN 中的 TF-CRE 相互作用。

从另一个角度来看,评估重建的 GRN基准 GRN 推理方法是紧密相连的。可靠的模型能够有效地捕获观测数据的特征,因此应该能够生成非常接近真实情况的模拟数据。因此,在 GRN 推理的背景下,有效的模型应该能够生成准确模拟 TF、CRE 和基因之间调控关系的数据。简而言之,生成鲁棒的计算机 GRN 取决于 GRN 推理方法忠实地模拟基本事实的能力,这也可以通过实验验证的知识来指导。目前无法实现这一目标,这表明 GRN 推理中的假设和方法尚不足以捕获 GRN 的真实复杂性。虽然所有模型本质上都存在局限性和假设,但我们建议研究人员考虑驱动其方法的推理过程的假设是否必要且具有生物学意义。这不仅将提高未来GRN推理方法的普适性和准确性,还将增强我们准确模拟单细胞多组学数据结构的能力。

CONCLUSION

单细胞多组学技术和 GRN 推理方法的并行发展为全面表征细胞类型和细胞状态基因调控关系提供了独特的机会。随着可用数据复杂性的增加,人们开发出了更强大的 GRN 推理方法来利用这些数据。在这篇综述中,对最新最先进的 GRN 推理方法进行了分类和总结。基于相关性的方法捕获线性(scMEGA、STREAM)或非线性(FigR、TRIPOD)成对调节关系。同样,基于回归的方法使用线性(Pando、scREMOTE、RENIN)或非线性(DIRECT-NET、SCENIC + )模型来识别解释目标基因表达的关键 TF。概率模型 (scMTNI) 可以结合先验信息来识别每个基因最有可能的调节因子。基于动态系统的方法(Dictys)结合外部因素来模拟基因表达随时间的变化。最后,深度学习方法使用人工神经网络来发现不同组学层之间的复杂调控关系(DeepMAPS、MTLRank、LINGER)。

GRN 推理是一个动态且快速发展的研究领域,最近涌现的新型单细胞多组学 GRN 推理方法就证明了这一点。技术进步和算法创新将继续推动更强大工具的开发,从而发现新的调控相互作用,这在理解驱动细胞身份和疾病的调控网络方面发挥着至关重要的作用。然而,虽然当前的 GRN 推断方法比以前的方法更先进,但仍然需要做一些工作来减轻当前的限制并提高推断的 GRN 的鲁棒性和准确性。尽管如此,很明显单细胞测序技术和GRN推断方法都取得了巨大进步,并将继续发展以进一步准确地重建多模式调控关系,这将对包括健康和疾病在内的广泛研究领域产生影响。

学习文献

Kim, D., Tran, A., Kim, H.J. et al. Gene regulatory network reconstruction: harnessing the power of single-cell multi-omic data. npj Syst Biol Appl 9, 51 (2023).

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信小鹏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值