生信新包|LINGER·从单细胞多组学数据推断基因调控网络

题目:Inferring gene regulatory networks from single-cell multiome data using atlas-scale external data

原理

LINGER 是一个计算框架,旨在从单细胞多组学数据推断基因调控网络。

使用基因表达和染色质可及性的计数矩阵以及细胞类型注释作为输入,它提供了cell population GRN、cell type-specific GRN 和cell-level GRN。 每个GRN包含三种类型的相互作用,即反式调节(TF-TG)、顺式调节(RE-TG)和TF结合(TF-RE)。  

它的工作原理可以通俗地解释为以下几个步骤:

  1. 预训练阶段:LINGER首先使用来自ENCODE项目(这是一个包含了数百个样本,覆盖多种细胞环境的大型数据库)的大量数据进行预训练。这个阶段称为BulkNN,目的是让模型学习到基因表达的一般规律。

  2. 单细胞数据细化:接着,LINGER利用单细胞数据对模型进行细化。这里使用的是一种叫做Elastic Weight Consolidation(EWC)的技术,它允许模型保留从大量数据中学到的知识,同时适应新的单细胞数据。这个过程就像是在保持基础知识的同时,学习更具体的新技能。

  3. 神经网络模型:LINGER使用一个神经网络模型来模拟基因表达。这个模型接收转录因子(TFs)的表达水平和调控元件(REs)的可及性作为输入,然后预测目标基因(TGs)的表达。

  4. 调控模块的形成:在神经网络的第二层,通过加权求和的方式,将TFs和REs结合起来形成监管模块。这个过程是通过转录因子与调控元件之间的基序匹配(motif matching)来指导的,确保模型能够识别出哪些TFs与REs结合,从而调控同一基因表达。

  5. 推断调控强度:使用一种称为Shapley值的方法,LINGER能够估计TF与基因(TF–TG)以及调控元件与基因(RE–TG)之间相互作用的强度。Shapley值是一种评估每个特征对每个基因表达贡献的方法。

  6. 构建基因调控网络:最后,LINGER根据从单细胞数据中学习到的信息,构建出特定细胞类型和细胞水平的基因调控网络。

  7. 后续分析:利用构建的基因调控网络,LINGER可以进行更深入的分析,比如识别与疾病相关的细胞类型、转录因子和基因调控网络,以及在外部表达数据上构建调控子活动,并识别作为差异活性转录因子的驱动调节因子。

通过LINGER推断的调控环境阐明GWAS特征

根据转录谱识别驱动调节因子 

LINGER通过模拟终身学习的概念,使得神经网络模型能够从不同阶段和不同类型的数据中学习,同时保留了之前学习到的知识,从而提高了模型的预测准确性和泛化能力。 

参考:Inferring gene regulatory networks from single-cell multiome data using atlas-scale external data | Nature Biotechnology

Durenlab/LINGER (github.com)

  • 19
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值