论文解读《Deep learning: new computational modelling techniques for genomics》

YZT8848

已于 2022-01-24 16:50:34 修改

阅读量2.3k

点赞数 4

分类专栏：生信文章标签： python 机器学习

于 2021-10-06 15:01:31 首次发布

原文链接：https://sci-hub.st/10.1038/s41576-019-0122-6

版权

生信专栏收录该内容

51 篇文章

订阅专栏

期刊名：Nature Reviews Genetics

GENETICS & HEREDITY
遗传学

期刊名： NATURE REVIEWS GENETICS
期刊名缩写：NAT REV GENET
国际刊号：1471-0056
出版国家或地区：ENGLAND
大类学科及分区：
生物 1区
是否TOP期刊：是
小类学科及分区：

DOI：10.1038/s41576-019-0122-6

代码链接：无

文章链接：Sci-Hub | Deep learning: new computational modelling techniques for genomics. Nature Reviews Genetics, 20(7), 389–403 | 10.1038/s41576-019-0122-6https://sci-hub.st/10.1038/s41576-019-0122-6

一、摘要：

数据是机器学习的命根子，是机器学习的核心，数据驱动的方法脱离了以人为中心的传统方法，而深度学习和神经网络更能极力的避免人为介入。更有表现的模型比如：深度学习，神经网络。深度学习利用大型数据对于基因重组建模任务产生影响。

（数据的依赖性如果两个操作访问同一个变量，且这两个操作中有一个为写操作，此时这两个操作之间就存在数据依赖性）

本文主要涉及到的原理知识：1、监督学习中四个主要的神经网络，分别是：全连接网络、深度卷积、循环卷积和图卷积。2、多任务学习和多模态学习。3、迁移学习与非监督学习。

二、引言

1、广义上的基因组学，也称为功能基因组学，旨在通过基因组测序、转录组分析和蛋白质组学等基因组规模分析来表征生物体每个基因组元素的功能。基因组学作为一门数据驱动的科学应运而生——它通过探索基因组规模的数据发现新的特性，而不是通过测试预先设想的模型和假设来运作。基因组学的应用包括发现基因型和表型之间的关联，发现患者分层的生物标记，预测基因的功能和绘制生物化学活性基因组区域，如转录增强子。

2、为了从荧光显微镜图像中将肿瘤分类为恶性或良性，预处理算法可以检测细胞、识别细胞类型并生成每种细胞类型的细胞计数列表。然后，机器学习模型将这些估计的细胞计数（手工特征的示例）作为输入特征对肿瘤进行分类。一个中心问题是分类性能在很大程度上取决于这些特征的质量和相关性。

3、数据爆炸、算法进步和计算能力的大幅提高，特别是通过使用图形处理单元(GPUs)，使得深度神经网络的构建和训练成为可能。在过去的7年中，深度神经网络在计算机视觉、语音识别和机器翻译方面取得了多项性能突破。2015年的开创性研究证明了深度神经网络对DNA序列数据的适用性，从那时起，描述深度神经网络在基因组学中应用的出版物数量呈爆炸式增长。与此同时，深度学习社区大幅提高了方法质量，并扩大了其建模技术，其中一些技术已经开始影响基因组学。在这里，我们描述深度学习建模技术及其现有的基因组应用。我们首先介绍了用于有监督机器学习的四大类神经网络(完全连通、卷积、递归和图形卷积)，并解释了它们如何用于抽象模式在基因组学中很常见。接下来，我们描述了多任务学习和多模态学习。这两点在文章中后面还有具体论述。

三、监督学习

有监督学习的目标是获得一个以特征为输入并返回对所谓目标变量的预测的模型。有监督学习问题的一个例子是预测内含子是否被剪接出来(目标)，给定RNA上的特征，诸如是否存在规范剪接位点序列、剪接分支点的位置或内含子长度(图1)。训练机器学习模型指的是学习其参数，这通常涉及使训练数据的损失函数最小化，目的是对看不见的数据做出准确的预测。

1、复杂的依赖关系可以用深度神经网络建模。

对于计算生物学中的许多监督学习问题，输入数据可以表示为具有多个列或特征的表，每个列或特征包含可能对做出预测有用的数字或分类数据。一些输入数据自然被表示为表格中的特征(如温度或时间)，而其他输入数据需要首先使用称为特征提取的过程进行转换(如将脱氧核糖核酸序列转换为k-mer计数)，以适合表格表示。以下是论文中给出的监督学习示意图。

图1

2、用于非线性相关性建模的具有隐藏层的神经网络。

图1所示为基于两个RNA特征的剪接位点分类的例子。描绘了具有sigmoid激活函数的单层神经网络，其对应于逻辑回归。具有中间层(也称为隐藏层)的神经网络使用中间非线性变换将输入变换到类变得可线性分离的空间中。所描绘的层被认为是完全连接的，因为每个神经元从上游层的所有神经元接收输入。深度神经网络是具有许多隐藏层的神经网络。

四、用于监督学习的神经网络训练

1、数据划分和预测目标

监督学习数据集由分成三个不同集合：训练集，验证集，测试集。目标对组成(见图，a部分):一个用于优化模型参数(训练集)，一个用于评估模型性能(验证集)，一个用于最佳开发模型的最终评估(测试集)。在模型开发阶段，只有一个人可以访问训练和验证集。目标是开发一个在测试集上具有最准确预测的模型。预测的准确性由不同的评估指标来衡量，例如回归的皮尔逊相关系数或斯皮尔曼相关系数、平衡二进制分类的接收器算子曲线下的区域或不平衡二进制分类的精度-召回率曲线下的区域。

2、使用训练集拟合参数

神经网络的参数首先被随机初始化，然后使用称为随机梯度下降或其变量的方法进行迭代优化。通过使用使用反向传播算法计算的损失函数的梯度来执行这种最小化。在每个优化步骤中只取训练集的一个小的随机子集，而不是整个训练集。全连接网络层是深度学习倒数第二、三层，在网络中起到分类器的作用。以全连接层结成的神经网络也叫全连接神经网络，全连接神经网络在基因组学里也都有所应用。

3、使用验证集选择超参数

深度神经网络使用许多隐藏层，当每个神经元从前一层的所有神经元接收输入时，一层被称为完全连接。神经网络通常使用随机梯度下降算法来训练，这是一种适用于在非常大的数据集上训练模型的算法。使用现代深度学习框架实现神经网络能够使用不同的架构和数据集进行快速原型开发。

图2

有效的预测必须考虑空间和纵向数据的局部相关性。转录因子通过识别序列基序与DNA结合。基于序列衍生特征(如k-mer实例的数量或序列中的位置权重矩阵(PWM)匹配)的完全连接层可用于此任务。由于k-mer或PWM实例频率对序列内的移动基序具有，因此这种模型可以很好地推广到具有位于不同位置的相同基序的序列。然而，他们无法识别转录因子结合依赖于具有明确间距的多个基序组合的模式。此外，可能的k-mer的数量随着k-mer的长度呈指数增长，这带来了存储和过度拟合的挑战。

DeepBind、DeepSEA和Basset三种关键方法是第一个应用于基因组数据的卷积神经网络。在DeepBind中，训练多个单任务模型(参数的中值数为1，586)来预测转录因子的二值化体外和体内结合亲和力(即，结合或不结合)以及核糖核酸结合蛋白的体外结合亲和力(RBP)。该方法始终比现有的非深度学习方法表现更好。深海模型(52，843，119个参数)预测了919个染色质特征的存在与否，包括转录因子结合、DNA可及性和给定的组蛋白修饰一个1,000 bp的序列。Basset (4，135，064个参数)预测了给定600 bp序列的164个二值化DNA可及性特征(例如，可及性或不可及性)。这两种方法的性能都比基于k-mer的方法gkm-SVM好得多。

氯化萘也被用来模拟基因组中的长期依赖性。尽管相互作用的调控元件可能位于展开的线性脱氧核糖核酸序列的远处，但这些元件通常位于实际的三维染色质构象的近端。因此，从线性脱氧核糖核酸序列模拟分子表型，尽管是染色质的粗略近似，可以通过允许长期依赖性和允许模型隐含地学习3D组织的方面来改进，例如启动子-增强子循环。在Basenji中，这是通过使用扩张的卷积来实现的，这使得能够获得32 kb的感受野。扩张的回旋区也允许使用10 kb的感受野从序列中预测剪接位点，从而能够像典型的人类内含子一样长距离整合遗传序列。

图3

4、递归神经网络对序列中的长期相关性建模

不同类型的神经网络可以通过它们的参数共享方案来表征。例如，完全连接的层没有参数共享(图3a)，而卷积层通过在其输入的每个位置应用相同的滤波器来施加平移不变性(图3b)。

图4

递归神经网络(RNNs)是CNNs的一种替代方法，用于处理顺序数据，如实现不同参数共享方案的DNA序列或时间序列。RNNs对每个序列元素应用相同的操作(图3c)。该操作将先前序列元素的存储器和新输入作为输入。它更新内存，并可选地发出输出，该输出或者传递给后续层，或者直接用作模型预测。通过在每个序列元素上应用相同的模型，rnn对于处理序列中的位置索引是不变的。例如，无论序列中的位置如何，RNN都能检测到DNA序列中的开放阅读框。这项任务需要识别某一系列输入，如起始密码子后接框内终止密码子。与中枢神经系统相比，神经网络的主要优势在于，理论上，它们能够通过记忆通过无限长的序列传递信息。此外，RNNs可以自然地处理长度变化很大的序列，如mRNA序列。然而，最近的系统比较表明，在序列建模任务(如音频合成和机器翻译)中，结合各种技巧(如扩张卷积)的中枢神经系统能够达到与中枢神经系统相当甚至更好的性能。此外，由于神经网络应用顺序操作，它们不能很容易地并行化，因此计算速度比神经网络慢得多。

在基因组学中，RNNs已经被用于聚集CNNs的输出，以预测单细胞DNA甲基化状态、RBP结合、转录因子结合和DNA可及性。RNNs还发现了在miRNA生物学中的应用:deepTarget在预测来自mRNA-miRNA序列对的miRNA结合靶标方面比现有模型表现更好，deepMiRGene比使用手工特征的现有方法更好地预测来自mRNA序列及其预测的二级结构的前体miRNAs的出现。从原始的脱氧核糖核酸测序数据中调用碱基是另一个已经应用了RNNs的预测任务。根据牛津纳米孔微型测序仪测量的电流变化，DeepNano准确预测了碱基身份。尽管RNNs有如此多的应用，我们注意到，对于基因组学中常见的序列建模任务，缺乏递归和卷积体系结构的系统比较。

5、图卷积神经网络对图结构数据中的依赖性进行建模。

图形结构的数据，包括蛋白质-蛋白质相互作用网络和基因调控网络，在基因组学中无处不在。图卷积神经(GCN)网络(图3d)利用图中节点的个体特征和节点连通性来解决图上的机器学习任务。GCNs顺序应用多个图变换(层)，由此每个图变换以非线性方式聚集来自相邻节点或边的特征，并用一组新的特征表示节点或边。GCNs可以训练的任务包括节点分类、无监督节点嵌入(旨在寻找节点的信息性低维表示)、边缘分类和图分类。

绿色气候网络已应用于许多生物和化学问题。例如，一种方法使用无监督的方法以无监督的方式从蛋白质-蛋白质相互作用网络中导出蛋白质的新特征，然后这些特征被用于预测不同组织中的蛋白质功能。gcn也被用于模拟多种药物的副作用。在化学中，图形卷积已经成功地用于预测各种分子性质，包括溶解度、药物功效和光伏效率。GCNs的基因组应用包括在给定其他基因表达或癌症亚型分类的情况下预测二值化基因表达。GCNs为开发有监督和无监督机器学习问题的图的结构模式提供了有前途的工具，我们期望在未来看到更多的基因组学应用。

6、跨任务共享信息和集成数据模式

基因组数据通常包含相关生物活动的相关测量。相关测量可以发生在单个数据类型内(如共调控基因的表达)，也可以发生在不同的数据类型间(如ChiP–seq峰和DNase I超敏感位点测序(DNase-seq)峰)，并产生相关的预测任务。

图5

在多任务模型中，整体损失函数只是每个任务损失的总和。当不同任务的损失差异很大时，可以使用加权和来平衡损失。训练多任务模型可能具有挑战性，因为网络需要同时优化多个损失，从而进行权衡。例如，如果不同任务之间的类不平衡差异很大，网络可能只成功学习平衡良好的类，而通过总是预测多数类来完全忽略困难的不平衡类。已经提出了各种策略来解决这个问题。例如，GradNorm在训练过程中采用任务权重，以确保对应于不同任务的反向传播梯度大小相等。在基因组学中，多任务模型已经成功地用于同时预测多种分子现象类型，例如转录因子结合、不同组蛋白标记、不同组织中的DNA可及性和基因表达。

7、具有迁移学习的小数据集训练模型

在数据稀缺的情况下，从头开始训练模型可能是不可行的。相反，模型可以用在类似任务上训练的另一个模型的大部分参数来初始化。这种方法被称为转移学习，可以被视为将先验知识纳入模型(图4d)。在最简单的情况下，其中源模型的参数在训练期间不被修改，这种方法可以被视为在由源模型提取的特征之上构建单独的模型。与使用随机初始化参数从头开始训练的模型相比，转移的模型可以更快地学习新任务，需要更少的数据来训练，并更好地推广到看不见的数据。在生物图像分析中，成功地采用了来自ImageNet竞赛的预处理模型来对皮肤损伤进行分类、进行形态分析和分析原位杂交图像。在基因组学中，转移学习的效用已经被证明是基于序列的染色质可及性预测模型。在这项研究中，研究人员训练了多任务Basset模型来预测149种细胞类型的二进制染色质可及性分布。然后，他们使用多任务模型中的参数对其他15种细胞类型进行了染色质可及性的单任务模型训练。用转移参数初始化的模型比用随机参数初始化的模型具有更好的预测性能。我们注意到，对共享多少参数以及不同任务使用哪些模型的广泛评估仍然缺乏，需要进一步研究。

图6

为了实现迁移和多任务学习的全部潜力，训练好的模型必须易于共享。在计算机视觉和自然语言处理领域，经过训练的模型通过称为模型动物园的存储库共享，并可用于流行的机器学习框架，例如PyTorch模型动物园、Keras模型动物园和Tensorflow模型动物园。我们和其他人最近开发了基因组学模型动物园Kipoi，以解决缺乏交换模型平台的问题。Kipoi包含2，000多个基因组学预测模型，允许用户通过统一的界面访问、应用和解释这些预测模型，并对基于序列的模型子集的单核苷酸变异效果进行评分。随着数据集的规模和数量的增长，预测模型变得更加准确和必要，我们预计将看到模型分布得到更大的重视，类似于过去十年中数据和软件共享的改善。

五、解释预测

深度神经网络的参数由于冗余和与输出的非线性关系而难以解释，在线性模型中可以对特征有预测贡献。

1、特征重要性分数询问输入-输出关系。

显著图、输入屏蔽梯度或基于扰动的方法的一个问题是所谓的神经元饱和问题。考虑一个神经网络，如果它观察到一个TAL1转录因子基序，它将序列分类为阳性。如果序列中实际上有两个TAL1基序，其中一个可以删除，模型预测不会改变。在基于扰动的梯度或输入屏蔽梯度的情况下，两个TAL1基序的重要性分数都较低，因为它们对于预测来说各自都不是必需的。为了解决这种故障模式，开发了所谓的基于参考的方法，如DeepLIFT和集成梯度。这些方法将输入要素与其“参考”值进行比较，从而避免饱和问题。在DNA序列的情况下，合理的参考值是原始序列的二核苷酸混洗版本。我们注意到目前缺乏基因组学中特征重要性分数和不同参考值的严格基准。因此，我们建议尝试多种方法，并将其与一些众所周知的例子或模拟数据进行比较。

2、序列基序发现

当分析调控DNA序列时，模体发现是生物信息学工作流程的重要组成部分。尽管特征重要性分数能够突出不同模体的实例，但迄今为止，它们仅用于手动检查单个序列，而不能执行自动模体发现。简单地平均多个例子的重要性分数不会产生期望的结果，因为基序不总是位于输入序列中的相同位置。由于这个问题，许多研究通过聚集训练集中的序列从序列中导出基元，该训练集强激活第一卷积层的滤波器或将滤波器直接解释为基元。最近，一种被称为TF-MoDISco的重要度综合方法被提出。TF-MoDISco提取、排列并聚类高度重要的区域为序列基序。与仅依赖于普通序列的经典模体发现不同，TF-MoDISco依赖于预测模型，通过特征重要性得分来突出序列内的重要区域，从而指导模体发现。

图7

3、具有可解释参数和激活的神经网络

最近提出了一种称为“可见神经网络”的方法，该方法利用DCell模型来提高内部神经网络激活的可解释性。DCell的模型架构对应于细胞内已知分子子系统的分层组织。神经网络中的节点对应于分子子系统，如信号通路或大蛋白复合物，只有当上游系统(如小蛋白复合物)是下游系统(如大蛋白复合物)的一部分时，两个节点(系统)之间的连接才是允许的。神经网络中的神经元对应于已知的概念；因此，可以解释它们的激活和参数。我们注意到，这种方法仅适用于底层实体及其层次结构已经足够众所周知的任务；它可能不直接适用于实体或其层次结构通常未知的任务，如转录因子结合的情况。有趣的是，看看这种方法在未来能在多大程度上应用于其他模型，以及它如何与模块化建模方法(如ExPecto51)相结合，以解决预测和理解更复杂的表型(如疾病)的问题。

4、无监督学习

无监督学习的目标是通过学习数据集的有用属性来表征未标记的数据。经典的无监督机器学习方法包括聚类算法如k-means和降维方法例如主成分分析、t分布随机邻域嵌入(t-SNE)或潜在变量模型。神经网络能够概括其中的一些方法。例如，自动编码器将数据嵌入到具有隐藏层(称为瓶颈层)的低维空间中，并重建原始输入数据(图7a)。这种方法迫使网络提取数据的有用特征，因为瓶颈层使得学习完美重构不可行。重建数据通常被解释为去噪，因为不重要的变化会被自动忽略(图7b)。主成分分析相当于线性自动编码器，其中主成分对应于瓶颈层中的表示。多个非线性层将线性自动编码器推广到非线性降维方法。

六、结论和未来展望

基因组学对深度学习的吸收导致了早期应用的科学和经济意义。基于基因组深度学习对诊断学和药物开发的预期经济影响及其与成像数据的轻松整合，多家公司和行业研究小组正在成立，通常被冠以更广泛的人工智能标签。特别是，药物基因组学可能得益于更有效和自动化地识别基因组中的新调控变体，以及利用表观基因组学数据更准确地预测药物反应和靶点。

无论与其他方法相比在数量上有何优势（或劣势），深度学习的一些定性方面仍然与经济学相关。有监督和无监督的深度学习方法在基因组学中有着广泛的应用。在这里，我们强调了三个关键领域，我们预计它们将在现在和不久的将来产生最大的影响。

对于我个人而言整个整理的过程更像是从纸上谈兵到沙盘演练，通过推荐《深度学习入门》书籍相关基础知识的学习，与论文的理解，让对这些原理记忆更为深刻。