Nature子刊:用机器学习揭露人类基因调控背后的“语法”

芬兰科学家通过机器学习分析大量DNA序列数据,揭示了基因调控的“语法”,理解了基因何时何地表达的逻辑。研究发现,转录因子以加性方式参与基因调控,且在不同细胞类型中保持相似活性。同时,基因调控元件根据染色质环境分为两类,有的在封闭染色质区域也能发挥作用。这一成果有助于癌症和遗传病的研究。
摘要由CSDN通过智能技术生成
丰色 发自 凹非寺
量子位 | 公众号 QbitAI

AI又立功了。

这次,来自芬兰赫尔辛基大学的最新研究借助机器学习,破解了人类基因调控背后的“语法”

而在此之前,科学家仅仅是知道DNA可以决定基因在某时某处进行表达,现在终于对它背后的逻辑有了深刻的理解。

这项成果将给癌症和遗传病研究带来新启发,现已登上Nature子刊 (自然·遗传学)。

43b416dd6be3c23dd454ce6dd463a28f.png

破解基因调控背后的“语法”

正式开始之前,先来一点背景知识。

基因调控(Gene regulation)是控制细胞内基因活性的重要过程,不正确的调控会导致疾病产生,比如癌症。

人类基因组的DNA包含为蛋白质编码的基因,这些蛋白质序列可赋予肌肉细胞力量,赋予脑细胞处理信息的能力等。

DNA中还包含调控基因的元素,决定基因何时何地表达,比如确保肌肉基因只在肌肉里表达,大脑基因在大脑中表达。

我们一直对决定基因调控的编码逻辑知之甚少,这是因为:

虽然人类基因组包含近30亿个碱基对,但基因组序列(genomic sequence)太短,无法用来学习背后的逻辑。

eaf15c807dfb42786fb3b38977b0f1f2.png

现在,芬兰科学院肿瘤遗传学高级研究中心的科学家们,采用了一种创新方法——不使用自然基因组序列,而是将随机合成的DNA序列引入人类细胞。

这些细胞读取新的DNA后,突出显出作为活性调控元素(active regulatory elements)的序列。

这些序列就是要研究的对象。

作者介绍,它们的空间加起来是整个人类基因组的100倍

有了足够规模的数据集,就可以利用机器学习进行数据分析了。

都有哪些发现?

我们知道,基因表达受可结合DNA的转录因子( 一种蛋白质的总称)调控。

这个机器学习模型则显示,单个转录因子以“加性”方式参与基因调控,且语法较弱(with weak grammar)。

在两个主要调控元件——增强子(增强转录作用)和启动子(定义转录的起始)之中,增强子会以一种不在转录因子之间产生相互作用的机制增加启动子的表达。

24dbe9ec76372d9310d2066703318291.png

随后,研究人员比较了三种不同的人类细胞:结肠癌细胞、肝癌细胞以及来自视网膜的正常细胞。

他们发现只有少数转录因子在细胞中保持高度活性,但它们的活性与细胞类型无关,在哪里都是相似的。

这一结果表明,人类细胞中的基因调控元件可以根据染色质环境(context)分为两种:

要么位于DNA密集的封闭染色质区域,要么位于DNA没有紧密围绕组蛋白的更开放的染色质环境中。

染色质和染色体是同一种物质的两种形态。染色质是伸展的状态。有利于DNA信息的表达。

传统观点则认为,活性调控元件只位于开放的染色质区域内,在这里转录因子很容易接触到DNA。

因此,在封闭染色质区域内发现起作用的活性调节元件是该研究的核心新观察结果之一。

此外,研究人员还发现了依赖于染色质的调控元件。

这些元件在基因组中的正常位点具有活性,但如果将它们从原始位置移出并转移到另一个基因附近,它们的活性就会大大降低。

论文地址:
https://www.nature.com/articles/s41588-021-01009-4

参考链接:

https://phys.org/news/2022-02-uncovers-grammar-human-gene.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值