关于转录因子如何读取顺式调控代码的七个误区

Seven myths of how transcription factors read the cis-regulatory code

  • 时间 : 2020.08

  • 中文标题 : 关于转录因子如何读取顺式调控代码的七个误区

亮点/关键内容

为(更合理地)在基因组学数据中应用机器学习算法,我们需要持续探讨顺式调控信息是如何编码在DNA中的。

顺式调控编码具有固有的组合特性和细胞类型特异性。

染色质可及性和增强子 抑制被编码在顺式调控序列中,可能涉及低亲和力结合位点。

摘要(人为拆分)

基因组数据正以高质量、高分辨率甚至单细胞水平大量生成。这为发展有力的机器学习方法(包括神经网络)以解析顺式调控编码规则提供了前所未有的机会。 (背景)

然而,目前的模型的建模假设往往并不基于来自转录组学、发育遗传学、影像学、结构研究的最先进的顺式调控编码知识。 (空白)

本研究希望,通过简要介绍该领域,描述常见的误区、提供可能有助于指导计算方法的知识来填补这一空白。本研究将描述产生增强子活性的转录因子结合Motif的组合要求(包括顺式调控中染色质可及性、抑制子、低亲和Motif的作用)所涉及的机制和原理。 (本文贡献、主要内容)

破译顺式调控密码将解锁基因组中的海量调控信息,并允许研究者定位与疾病和发育相关的顺式调控变异 (展望、意义、应用)

关键词

转录因子

顺式调控编码

Motif语法

染色质可及性

协作结合

低亲和力结合Motif

增强子抑制

转录调控网络

介绍(Introduction)

生物学中一个根本未解决的问题是顺式调控编码(基因组第二密码),这提供了在基因组中解读顺式调控信息的方法。 基因组中最丰富的顺式调控序列是增强子,它们在特定条件下变得活跃并“增强”附近基因的转录 。增强子活性由其序列决定并可以在基因组环境外(例如reporter assays中)重现,因此解读增强子的顺式调控编码是可行的。这很重要,据估计,与人类复杂性状和疾病相关的遗传变异有超过80%位于顺式调控区。如果我们能够破译顺式调控编码,解锁基因组上的调控信息,就能定位顺式调控变异(功能变异)并预测其对生物体的影响。

顺式调控规则是一个长期存在的问题,也一直是研究的焦点。利用遗传学和生物化学方法,Jacob和Monod在20世纪60年代发现,细菌中的基因受同一DNA分子附近发现的DNA序列(顺式)的调控。随着分子生物学的发展,将序列剪切并黏贴到不同的基因组环境成为可能;这表明增强子可以在正常的基因组环境之外独立发挥作用,不依赖其定位和与基因的精确距离。此外,研究者还发现增强子包含转录因子(TF)识别的短序列基序(6-12个碱基)。因为TFs通常对细胞外信号有反应,或者在胚胎发育过程中以空间和时间的方式进行转录调节,它们为细胞提供了调节增强子和相关基因何时变得活跃的手段(图1a)。

在这里插入图片描述

图1 顺式调控编码决定了DNA序列如何决定增强子活性

a 转录因子受细胞外信号和转录调控,每一种细胞类型都包含一组独特的活性转录因子。(TFs are regulated transcriptionally and by extracellular signals such that each cell type contains a unique set of active TFs)根据特定的TF组合,不同组的增强子在不同细胞类型中变得活跃。

b 顺式调控序列中含有按特定顺序排列(语法)的TF motif。依赖语法,不同TFs与其Motif协作结合。随后,TFs招募辅助激活因子或辅助抑制因子,从而调节增强子的活性。

转录因子如何调控特定增强子活性仍是未解决的难题。发育增强子通常包含多个转录因子的Motif(基序),Motifs的特定组合赋予了它们各自的特性。对单个增强子的实验分析表明,增强子活性可能取决于Motif排列(Motif句法)。Motif句法包括:Motif组成、顺序、方向、间距。早期研究曾为interferon-beta增强子提出严格的语法规则(多个TF组合成增强体)。然而,单一增强子的研究不能揭示用于全基因组的规则。时至今日,研究者仍不能仅从序列预测增强子的调控活性【注:这个说法放在2022年后来看不太合理,因为https://doi.org/10.1038/s41588-022-01048-5 提出的DeepSTARR模型实现了从 DNA 序列预测增强子活性(依赖 UMI-STARR-seq 测序数据训练)】。

基因组学的发展让研究者误以为发现顺式调控编码规则已是指日可待。共调控基因(Co-regulated genes)指示具有相似活性的增强子的存在;染色质免疫沉淀(ChIP)技术使得在体内被TF结合的基因组区域得以识别;大规模报告试验的发展使特定细胞类型中具有类似增强子活性的大量序列被识别。

给定大量的增强子,有理由认为可以从中确定导致增强子激活的特定Motif组合和排列规则。然而,尽管在2000年进行了广泛的实验和计算工作,但没有出现明确的顺式调控代码规则。现有的数据可能缺乏必要的深度和分辨率,无法确定地描绘出体内TFs结合的确切序列Motif。

具有讽刺意味的是,过去十年中,随着基因组学技术和计算方法的发展,破译顺式调控密码的努力不增反降。研究工作不再集中在序列和基因调控之间的关系上,而是越来越多地聚焦于染色质状态、RNA和细胞核的三维组织。科学问题随着基因组学技术提供的新机会而发展,并从顺式调控密码这一基本问题上转移走,顺式调控密码要么被视为在原则上已经得到解决,要么被视为难以解决。

现在,我们处在一个拥有大量、精确的高分辨率和来自单细胞的基因组学数据的时代,这大大推动了顺式调控序列分析。强大的机器学习算法,包括神经网络,已经被开发出来用于分析DNA序列和预测许多相关的基因组测序信号。这使得人们首次发现了全基因组的语法,并发现语法往往是软性(soft)的:两个Motif的距离较优时(in a preferred distance),可能会增强TF的结合,(Motifs)不一定要以准确的碱基距离间隔【指后来发表、2020还是预印本的https://doi.org/10.1038/s41588-021-00782-6】。

尽管现在已经有了突破性的工具,顺式调控代码仍不是目前多数研究的焦点。由于基因组学研究转向基因调控的其他方面,我们对从转录、发育遗传学、成像、结构研究和计算生物学中了解的顺式调控代码的认识也不再具有明确的共识。这是有问题的,因为对顺式调控序列的计算分析(例如,作为转录调控网络的一部分)经常使用过于简化或不现实的假设来说明顺式调控信息是如何在DNA中编码的。在这里,我将概述其中一些常见的误区,指出反对这些误区的证据,并描述一条走向更现实的假设的道路。

误区1 : 如果我们了解一种细胞类型中的顺式调控代码,就可以预测所有细胞类型中的增强子活动(活性)。
事实1 : 顺式调控代码是高度复杂的,对每个细胞状态都是特异的。
误区2 : 增强子受到很多种转录因子的杂乱(promiscuously)调控
事实2 : 增强子激活需要转录因子以组合作用的形式实现

在这里插入图片描述
图2 TF 的Motif以 AND 逻辑发挥作用 。

(a)在增强子中突变不同的Motif都会导致增强子活性的丧失。Motif之间的这种AND逻辑可以通过(b)协同 TF 结合复合Motif (c )协同TF结合以螺旋周期间隔(~10 bp x N)的基序(d)一个 TF 打开染色质使得另一个 TF 可以结合(辅助加载)(e)协同共激活。等方式实现

(f)随着 TF 浓度的增加,产生的增强子活性遵循 S 形曲线。

误区3 : 理解顺式调控代码的问题等同于映射转录因子的直接结合位点
事实3 : 转录因子结合和其功能本质上是组合的
误区4 :染色质调控比转录因子结合更重要
事实4 :染色质可及性由顺式调控序列决定

在这里插入图片描述

图3 染色质可及性是多种TF的复合表征 ( readout of multiple TFs )

在缺乏合适的转录因子的情况下,核小体使DNA保持在一种不可接近的状态(左)。

先锋转录因子可以在染色质结构存在的情况下结合其Motif,使该区域可访问(primed or poised enhancer,中)。

在启动阶段和增强子激活期间,转录因子可能进一步增加染色质可及性(右)。

误区5 : ChIP-seq结合数据可以被视为二分类事件
事实5 :增强子上的ChIP-seq结合是定量信息
误区6:转录因子在哺乳动物细胞中主要起激活作用
事实6:转录因子经常抑制增强子

在这里插入图片描述

图4 阻遏物(a-c) 或低亲和力 TF 结合Motif (d-f) 调节增强子活性和特异性的机制

(a)当专门的阻遏物与它们的基序结合时,它们抵消了附近结合的 TFs 的活动。( b ) 双 TFs 自身可能弱激活,但是 ( c ) 当它们将抑制因子招募到附近的抑制基序时会产生抑制作用。低亲和力基序 ( d ) 可能与较短的停留时间结合并需要较高的 TF 浓度来介导增强子激活,( e ) 可能区分密切相关的 TF 家族成员,或 ( f) 可能依赖于伙伴 TF 进行结合。

误区7:低亲和力结合Motif对增强子功能没有强烈影响
事实7:低亲和力结合Motif对体内增强子的特异性至关重要

总结

关于顺式调控代码,还有很多内容需要学习。我们才刚刚开始了解在增强子激活中转录因子组合发挥功能的机制以及微妙的Motif语法和低亲和力motif如何影响这一过程。到目前为止,还不能推断一般性原则(实例太少)。然而在开发计算模型时,我们可能有一些信息来做出合理的假设。我们的目标是超越对相关Motif的识别,学习从原始序列预测增强子活动的语法和组合交互规则。神经网络非常适合这一任务,因为其可学习高度复杂的序列模式,具有前所未有的预测能力,允许在顺式调控背景下直接对Motif进行建模。此外,最近还开发了解释工具来提取相关的序列信息,包括Motif及其语法规则(主要指BPNET那个单碱基的文章的内容)。结合前沿的基因组学技术和大规模的数据集,这些方法有望彻底改变我们预测任何基因组中顺式调控序列功能的能力,并为我们提供前所未有的机会来研究发育和疾病的顺式调控变异。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值