A Fast Learning Algorithm for Deep Belief Nets - 论文学习

最新推荐文章于 2024-06-30 20:10:47 发布

Mr，yu

最新推荐文章于 2024-06-30 20:10:47 发布

阅读量2.5k

点赞数 1

分类专栏：论文笔记文章标签：论文笔记 Machine Learning DeepLearning

本文链接：https://blog.csdn.net/serryuer/article/details/89349821

版权

本文介绍了深度信念网络（DBN）在处理explaining away现象中的挑战，并提出使用互补先验解决此问题。通过互补先验，作者提出一种快速、贪婪的学习算法，能够逐层训练深层的有向信念网络。这种方法在MNIST数据集上表现优越，可用于非线性降维、快速文档检索和非线性嵌入学习。

摘要由CSDN通过智能技术生成

文章目录

摘要

explaining away现象的存在使得稠密连接、拥有多个隐藏层的深度信念网络的训练变的困难，我们提出了使用互补先验来解决这一问题。使用互补先验，我们推导出一种快速、贪婪的算法，可以每次学习深层的有向信念网络中的一层，该网络的最上面两层形成了一个无向联想记忆。该算法用于初始化一个比较慢的学习算法，使用Wake-Sleep算法进行调整网络参数。一个经过调整的三层神经网络可以对手写数字识别数据进行很好的建模。

介绍

在稠密连接的多层有向信念网络中很难根据给定的输入向量推断隐藏单元的条件分布，因此其学习是十分困难的。变分学习方法可以对其真实的分布进行简单的近似，但是这种近似效果可能很差。而且，变分学习需要同时学习所有的参数，所以当网络参数规模增长的时候，这种学习方法的扩展性很差。

我们描述了一个网络模型，它的最上面两层形成了一个无向联想记忆模块，剩下的隐藏层形成了有向无环图，用于把抽象表达转化成可观察到的变量，比如图片像素。这个混合模型有以下特点：

存在一个快速、贪婪的算法可以快速的找到一组合适的参数，即使网络拥有上百万的参数并且含有多个隐藏层；
虽然学习算法是无监督的，但是可以通过学习一个同时生成数据和标签的模型来给数据打标签；
存在一个微调算法可以学习得到一个生成模型，使其在MINST数据集上的表现优于判别模型；
这个生成模型可以很容易的解释隐藏层中的分布表示；
学习算法是局部的；

第二部分介绍了互补先验的概念，以及它如何去除了explaining away的影响，并举了一个例子。第三部分解释了为什么限制玻尔兹曼机和有约束权的无限有向网络是等价的。

第四部分介绍了一个快速的、贪婪的学习算法，一层一层的构造多层有向网络。使用变分约束展示了每当加入一个新的层，整个生成模型的效果都会提升。

第五部分展示了这个算法是如何调整权重的，这是Wake-Sleep算法的对比版本，并且不受模式平均问题的影响，使得该算法能够学习到更好的重构权重。

第六部分展示了使用该算法训练的一个三层模型在Minst数据及上的表现。

第七部分展示了当使用该模型生成数据的时候，内部神经元到底是怎么变化的。

互补先验

explaining away现象的存在是的有向信念网络的推断边的困难，在稠密连接的网络中，隐变量的后验分布是难以处理的，只有少数特殊情况例外，如混合模型或线性模型加上高斯噪声。MCMC系列的采样方法可以从这种后验分布中采样，但是非常耗时。变分方法(Neal & Hinton, 1998)用更易于处理的分布近似真实后验，可以提高训练数据对数概率的下限。

complementary prior就是在第一层hidden unit上再加一层或多层Sigmoid，并且拥有和visible到hidden相反作用的weight。目的是为了抵消explaining away现象，该现象使得p(h|v)对于不同的hi不可分解。具体的原理请参照Learning Deep Architecture for AI里的数学式。写出p(h|v)之后你会发现它依赖于likelihood而这个的式子无法分解，于是这里我们假设式子里有一个先验分布，使得其乘上似然之后得到的p(h|v)能够被分解为p(hi|v)的乘积。这个先验就是complementary prior。对于一个单层SBN，其补完先验就是无数多层的SBN，且相互之间互绑weight，至于为什么是这个请看数学式。这个模型也等同于一层的RBM。

Sigmoid信念网络是一种简单的由随机二值神经元组成的网络，当其被用于生成数据时，单元i的条件概率分布如下：