MIT-6874-Deep Learning in the Life Sciences Week6


Gene regulation, DNA regulatory code, 3D conformation folding )


前言

本节课针对深度学习在调控基因组学(Regulatory Genomics)之中的应用进行讲述。首先介绍基因调控构建的基础模块,然后介绍了传统的基因调控以及主成分分析方法。随后介绍了CNN和DNN在调控基因组学的应用。还有客座教授分享了其将深度学习用于Hi-C looping之中的工作。


1. Biological foundations: Building blocks of Gene Regulation

1.1 Gene regulation: Cell diversity, Epigenomics, Regulators (TFs), Motifs, Disease role

同一基因,表达出不同细胞的原因:转录因子控制细胞类型特异性启动子和增强子的激活
在这里插入图片描述

转录因子利用DNA结合域识别基因组中的特定DNA序列
在这里插入图片描述

什么是motif?

以下内容来自这篇文章:说了那么久的motif到底是什么 | RIP专题 - 联川生物的文章 - 知乎:https://zhuanlan.zhihu.com/p/428416814

Motif一段典型的序列或者一个结构。一般来说,我们称为基序
一般情况下是指构成任何一种特征序列的基本结构。通俗来讲,即是 有特征的短序列一般认为它是拥有生物学功能的保守序列,可能包含特异性的结合位点,或者是涉及某一个特定生物学过程的有共性的序列区段。比如蛋白质的序列特异性结合位点,如核酸酶和转录因子。

研究motif的意义

  • 序列基序在基因调控分析中越来越重要。Motif并不局限于基因组DNA序列还是RNA序列,甚至蛋白质序列也可以提取出相应的motif。通过序列信息的解析,我们可以解析生物学过程中的密码。当某一个大类的序列中,大量重复出现相同的序列结构的时候,就可能存在探索它意义的价值。基于motif序列的提取,我们可以预测潜在的结合位点等等,有助于我们进一步理解各生物学过程中涉及的生物学意义。比如转录因子的结合位点,其motif往往意味着某蛋白结构域与DNA碱基序列的相互作用

motif很多情况下会和domain相提并论,但是它们本质上完全不同。会把它们相互联系起来,只是因为它们在理解上有相似处。
==Protein domain==是一种结构实体,通常代表蛋白质结构中独立折叠和行使功能的一部分。
==motif==将其理解为某一个大类的序列共性,通常也将它和一种特定的功能联系在一起。
然而,它们在结构上和具体的功能上完全不同。

1b. Probing gene regulation: TFs/ histones: ChIP-seq, Accessibility: DNase/ATAC-seq

Chromatin accessibility can reveal TF binding:染色质可达性揭示了TF结合
Motifs can predict TF binding:motifs可以被用做预测TF结合
在这里插入图片描述
染色质可达性影响着转录因子的结合

  • 对易访问性概要文件进行建模可以产生绑定预测和先锋因子发现
  • 非对称的可达性受directional pioneers诱发
  • 通过近端先驱者因子的绑定可以实现对settler factors的绑定

1c. Three-dimensional chromatin structure, Hi-C, ChIA-PET, TADs, Loop Extrusion

在这里插入图片描述
在这里插入图片描述

Hi-C是干什么的?
以下内容来源:Hi-C技术的初步了解:https://www.jianshu.com/p/e3c198d75345

Hi-C技术()——以高通量测序为手段,以3C技术为基础的染色质构象捕捉技术
在这里插入图片描述


2. Classical methods for Regulatory Genomics and Motif Discovery

给定一组共同调控/功能相关的基因,在它们的启动子区域找到共同的基序

  • 使用局部比对将启动子彼此对齐
  • 使用专业知识来确定主题应该是什么样的
  • 通过枚举找到中值字符串(motif/sample驱动)
  • 从上游区域的保守块开始

关键思想:在给定不确定性的情况下,对两者进行估计的迭代过程(带有隐藏变量的学习问题:起始位置)

在这里插入图片描述


3. Regulatory Genomics CNNs (Convolutional Neural Networks): Foundations

可以将基因视为一个4维的图像,使用one-hot形式表示的每一个字母代表一个通道(就像RGB是三个通道一样)
在这里插入图片描述


4. Guest Lecture: David Kelley on Basset and Deep Learning for Hi-C looping

4a. Basset

生物序列表征问题:我们无法从非常长的生物序列中有效的找到我们关心/与我们研究相关的信息。如何对其进行有效表征,以实现高效的应用和理解呢?
在这里插入图片描述

k-mer:用来表征DNA中长度为K的序列,并且这是一个有用的对象。可能是一个转录因子,让我们认识一些生化反应的机制
在这里插入图片描述

4b. Incorporating broader context

基于卷积神经网络的染色体序列调控活性预测模型:用于预测基因型的表型结果对于理解基因组功能和改善人类健康具有重要的应用价值。在这里插入图片描述
Sequential regulatory activity prediction across chromosomes with convolutional neural networks论文解读:https://blog.csdn.net/qq_36654309/article/details/114692540

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值