深度学习与生成式模型

最新推荐文章于 2024-12-25 16:00:00 发布

Solomon1588

最新推荐文章于 2024-12-25 16:00:00 发布

阅读量1.6w

点赞数 11

CC 4.0 BY-SA版权

分类专栏：深度学习机器学习计算机视觉CV 机器学习文章标签：深度学习生成式模型信念网络深度生成式模型预训练

本文链接：https://blog.csdn.net/solomon1558/article/details/52512459

深度学习同时被 3 个专栏收录

33 篇文章

订阅专栏

机器学习

33 篇文章

订阅专栏

计算机视觉CV

26 篇文章

订阅专栏

Main points

阐述生成式模型的求解目标（联合分布），应用方式（判别、生成分布的样本）。
阐释深度学习与生成式模型的关系；
调研深度学习在生成式模型方面的发展，分类阐述（求解方法）；
相较于传统生成式模型，深度生成式模型的特点、优势；

Outline：
1. 生成式模型的定义[wiki]（joint probability distribution）
2. 生成式模型的使用（used：modeling data directly、as an intermediate step to forming a conditional probability density function ）无监督、有监督
3. 生成式模型与判别式模型对比较；
4. Examples of generative models include:
5. 深度学习简介（多层次抽象，特征表示。。。）
6. 深度生成式模型（wikipedia）
The promise of deep learning is to discover rich, hierarchical models [2] that represent probability distributions over the kinds of data encountered in artificial intelligence applications, such as natural images, audio waveforms containing speech, and symbols in natural language corpora.【Generative Adversarial Nets】Deep generative models have had less of an impact, due to the difficulty of approximating many intractable probabilistic computations that arise in maximum likelihood estimation and related strategies, and due to difficulty of leveraging the benefits of piecewise linear units in the generative context.https://en.wikipedia.org/wiki/Generative_modelc
7. 深度学习模型的求解方法（蒙特卡洛采样、变分推断、对抗网络）
8. 几种经典生成式模型（DBN、AutoEncoder、对抗网络、变分推断网络）介绍。阐释深度学习在生成式模型的应用。

正文

1. 生成式模型

机器学习方法可以分为生成方法（generative approach）和判别方法（discriminative approach），所学到的模型分别称为生成式模型（generative model）和判别式模型（discriminative model）[1]。生成方法通过观测数据学习样本与标签的联合概率分布P(X, Y)，训练好的模型能够生成符合样本分布的新数据，它可以用于有监督学习和无监督学习。在有监督学习任务中，根据贝叶斯公式由联合概率分布P(X,Y)求出条件概率分布P(Y|X)，从而得到预测的模型，典型的模型有朴素贝叶斯、混合高斯模型和隐马尔科夫模型等。无监督生成模型通过学习真实数据的本质特征，从而刻画出样本数据的分布特征，生成与训练样本相似的新数据。生成模型的参数远远小于训练数据的量，因此模型能够发现并有效内化数据的本质，从而可以生成这些数据。生成式模型在无监督深度学习方面占据主要位置，可以用于在没有目标类标签信息的情况下捕捉观测到或可见数据的高阶相关性。深度生成模型可以通过从网络中采样来有效生成样本，例如受限玻尔兹曼机（Restricted Boltzmann Machine, RBM）、深度信念网络（Deep Belief Network, DBN）、深度玻尔兹曼机（Deep Boltzmann Machine, DBM）和广义除噪自编码器（Generalized Denoising Autoencoders）。判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型，即判别模型。判别方法关心的是对给定的输入X，应该预测什么样的输出Y。典型的判别式模型包括k近邻法、决策树、支持向量机和提升方法等。

2. 深度生成式模型

以高斯混合模型（GMM）、朴素贝叶斯（Naïve Bayes）为代表的生成式模型采用浅层结构，这些结构在解决很多简单的或者限制较多的问题上效果明显，但是由于其建模和表示能力有限，在遇到一些更复杂的涉及自然信号（比如人类语言、自然图像和视觉场景）的问题时就会遇到各种困难。
深度学习（Deep Learning）是机器学习的子领域，它是一类通过多层表示来对数据之间的复杂关系进行建模的算法。高层的特征和概念取决于低层概念，而且同一低层的概念有助于确定多个高层概念。深度学习的概念起源于对人工神经网络的研究，其突破在于经验性地缓解了深层神经网络容易陷入局部最优的问题。2006年Hinton提出的深度学习开创性论文[2 3]介绍了一类叫作深度信念网络(Deep Belief Network, DBN) 的深度产生式模型。DBN是由一组受限玻尔兹曼机(RBMs)堆叠而成的深度生成式网络，它的核心部分是贪婪的、逐层学习的算法，这种算法可以最优化深度置信网络的权重，使用配置好的深度置信网络来初始化多层感知器的权重，常常会得到比随机初始化的方法更好的结果。在深度神经网络（Deep Neural Network，DNN）的高度非凸优化问题中，以无监督方式预训练的生成式模型（DBN）可以提供良好的初始点，然后通过有监督的反向传播算法微调权值，从而有效解决深度网络的局部最优情况和欠拟合问题。这种生成式模型与判别式模型相结合的预训练/微调策略，极大地推动了深度学习早期的发展。

3. 深度信念网络（DBN）

深度信念网络（Deep Belief Network，DBN）是早期深度生成式模型的典型代表，它由多层神经元构成，这些神经元又分为可见神经元和隐性神经元，可见单元用于接受输入，隐单元用于提取特征。网络最顶上的两层间的连接是无向的，组成联合内存 (associative memory)，较低的其他层之间有连接上下的有向连接。最底层代表了数据向量 (data vectors)，每一个神经元代表数据向量的一维。DBN的组成元件是受限玻尔兹曼机（Restricted Boltzmann Machines ,RBM）。单个RBM由两层网络组成，一层叫做可见层 (visible layer)，由可见单元 (visible units) 组成，用于输入训练数据；另一层叫做隐层 (Hidden layer)，由隐单元 (hidden units) 组成，用作特征检测器 (feature detectors)。RBM既是一个生成模型，也是一个无监督模型，因为它使用隐变量来描述输入数据的分布，而且这个过程没有涉及数据的标签信息。单层RBM网络的学习目标是无监督地训练网络，使得可见层节点v的分布p(v)最大可能地拟合输入样本所在样本空间的真实分布q(v)。通过计算可见向量p(v)的对数似然log p(v)的梯度来更新RBM的权值，这个计算过程涉及到了求解RBM模型所确定分布上的期望。对于生成式模型概率推断过程中遇到的计算某分布下函数的期望、计算边缘概率分布等复杂问题，可以采用蒙特卡洛思想近似求解。DBN采用对比散度（Contrastive Divergence, CD-k）算法，利用Gibbs采样的方法来估计RBM的对数似然梯度。多个RBM堆叠组成一个DBN，将隐单元的激活概率（activation probabilities）作为下一层RBM的可见层输入数据，从底向上逐层预训练。DBN是一种生成模型，通过训练其神经元间的权重，我们可以让整个神经网络按照最大概率来生成训练数据。生成样本时，使用训练好的随机隐单元状态值，首先在网络最顶两层进行多次Gibbs采样，生成该分布下的采样，然后向下传播，得到每层的状态和最终的样本。
这里写图片描述

Reference

[1] 李航.统计学习方法[M].北京：清华大学出版社，2012.
[2] G. Hinton, S. Osindero, and Y. The. A fast learning algorithm for deep belief nets. Neural Computation,18:1527-1554,2006.
[3] G. Hinton and R.Salakhutdinov. Reducing the dimensionality of data with neural networks.Science,313(5786):504-507,July 2006.