目录
近似推断
- 许多概率模型很难训练的原因是难以计算 p(h | v) 或其期望。
- 把推断视作优化问题
- 因为 log p(v) 和 L(v, θ, q) 之间的距离是由 KL 散度来衡量的,且 KL 散度总是非负的,我们可以发现总是小于等于所求的对数概率。当且仅当分布 q 完全相等于 p(h | v) 时取到等号。
- 期望最大化
- 最大后验推断和稀疏编码
- 变分推断和变分学习
- 离散型潜变量
- 在确定了如何表示分布 q 以后,我们只需要优化它的参数。在离散型潜变量模
型中,这是一个标准的优化问题。基本上分布 q 的选择可以通过任何优化算法解决,比如梯度下降算法。 - h是二值的并且我们做了均值场假定,分布 q 可以根据每一个 hi分解。可以用一个向量 ˆh 来参数化分布 q,ˆh 的每一个元素都代表一个概率反复更新h不同的元素直到满足收敛准则
- 在确定了如何表示分布 q 以后,我们只需要优化它的参数。在离散型潜变量模
- 连续型潜变量
- 式 (19.56) 是一个不动点方程,对每一个 i 它都被迭代地反复使用直到收敛。然
而,它还包含着更多的信息。它还包含了最优解取到的泛函形式,无论我们是否能够通过不动点方程来解出它。这意味着我们可以利用方程中的泛函形式,把其中一些值当成参数,然后通过任何我们想用的优化算法来解决这个问题。
- 式 (19.56) 是一个不动点方程,对每一个 i 它都被迭代地反复使用直到收敛。然
- 离散型潜变量
- 学成近似推断
- 醒眠算法
- 醒眠算法
深度生成模型
- 玻尔兹曼机
- 玻尔兹曼机最初作为一种广义的 “联结主义’’ 引入,用来学习二值向量上的任意概率分布 。主要讲二值玻尔兹曼机
- 玻尔兹曼机有一个有趣的性质,当基于最大似然的学习规则训练时,连接两个单
元的特定权重的更新仅取决于这两个单元在不同分布下收集的统计信息:
- 玻尔兹曼机有一个有趣的性质,当基于最大似然的学习规则训练时,连接两个单
- 受限玻尔兹曼机:包含一层可观察变量和单层潜变量的无向概率图模型。
- 虽然 P(v) 难解,但 RBM 的二分图结构具有非常特殊的性质,其条件分布P(h | v) 和 P(v | h) 是因子的,并且计算和采样是相对简单的。
- 深度信念网络
- 深度信念网络是具有若干潜变量层的生成模型。潜变量通常是二值的,而可见
单元可以是二值或实数。尽管构造连接比较稀疏的 DBN 是可能的,但在一般的模型中,每层的每个单元连接到每个相邻层中的每个单元(没有层内连接)。顶部两层之间的连接是无向的。而所有其他层之间的连接是有向的,箭头指向最接近数据的层。 - 为了从 DBN 中生成样本,我们先在顶部的两个隐藏层上运行几个 Gibbs 采
样步骤。这个阶段主要从 RBM(由顶部两个隐藏层定义)中采一个样本。然后,我们可以对模型的其余部分使用单次原始采样,以从可见单元绘制样本。
- 深度信念网络是具有若干潜变量层的生成模型。潜变量通常是二值的,而可见
- 深度玻尔兹曼机
- 深度玻尔兹曼机是一个完全无向的模型。与 RBM 不同的是,DBM 有几层潜变量(RBM 只有一层)。但是像 RBM 一样,每一层内的每个变量是相互独立的,并条件于相邻层中的变量。 联合概率由下式给出: DBM 能量函数定义如下: 激活概率由下式给出: DBM一个不理想的特性是从中采样时相对困难的。DBN只需要在顶部中使用MCMC采样,其它层仅在采样过程末尾涉及,并且只需要一个高效的原始采样过程。而DBM必须在所有层中使用MCMC,并且模型的每一层都参与每个马尔可夫链转移
- 实值数据上的玻尔兹曼机
- 在一些情况下,将区间 [0, 1] 中的实值数据视为表示二值变量的期望。概率密度定义在实值数据上的玻尔兹曼机。
- 高斯 RBM
- 条件协方差的无向模型
- 学生 t 分布均值乘积
- 通过添加类似高斯 RBM 中隐藏单元的非零高斯均值来实现。
- 尖峰和平板 RBM尖峰和平板 RBM
- ssRBM 的二值隐藏单元通过使用辅助实值变量来编码跨像素的条件协方差。
- 卷积玻尔兹曼机
- 超高维度输入(如图像)会对机器学习模型的计算、内存和统计要求造成很大的压力。通过使用小核的离散卷积来替换矩阵乘法是解决具有空间平移不变性或时间结构的输入问题的标准方式。
- 深度卷积网络通常需要池化操作,使得每个连续层的空间大小减小。前馈卷积
网络通常使用池化函数,例如池化元素的最大值。虽然高效的概率最大池化确实能强迫检测器单元互斥,这在某些情景下可能是有用的正则化约束而在其他情景下是对模型容量有害的限制。它也不支持重叠池化区域。从前馈卷积网络获得最佳性能通常需要重叠的池化区域,因此这种约束可能大大降低了卷积玻尔兹曼机的性能。 - 许多卷积模型对于许多不同空间大小的输入同样有效。由于玻尔兹曼机中的连接是对称的事实而加剧。如果我们不隐式地补零输入,则将会导致比可见单元更少的隐藏单元,并且图像边界处的可见单元将不能被良好地建模,因为它们位于较少隐藏单元的接受场中。然而,如果我们隐式地补零输入,则边界处的隐藏单元将由较少的输入像素驱动,并且可能在需要时无法激活。
- 用于结构化或序列输出的玻尔兹曼机
- 使用玻尔兹曼机条件建模的相同工具不仅可以用于结构化输出任务,还可以用于序列建模
- 表示 y 中的条目之间关系的自然方式是使用概率分布 p(y | x)。扩展到建模条
件分布的玻尔兹曼机可以支持这种概率模型。使用玻尔兹曼机条件建模的相同工具不仅可以用于结构化输出任务,还可以用于序列建模。在后一种情况下,模型必须估计变量序列上的概率分布,而不仅仅是将输入 x 映射到输出 y。为完成这个任务,条件玻尔兹曼机可以表示 形式的因子。 - RNN-RBM 由 RNN(产生用于每个时间步的 RBM 参数)组成,是帧序列的生成模型。与之前只有 RBM 的偏置参数会在一个时间步到下一个发生变化的方法不同, RNN-RBM 使用 RNN 来产生 RBM 的所有参数(包括权重)
- 其他玻尔兹曼机
- 在实践中使用的大多数玻尔兹曼机在其能量函数中仅具有二阶相互作用,意味
着它们的能量函数是许多项的和,并且每个单独项仅包括两个随机变量之间的乘积。
- 在实践中使用的大多数玻尔兹曼机在其能量函数中仅具有二阶相互作用,意味
- 通过随机操作的反向传播
- 通过离散随机操作的反向传播
- ω 是同时包含参数 θ 和输入 x 的变量,z是随机噪声因为 y 是离散的,f 必须是一个阶跃函数。阶跃函数的导数在任何点都是没用的。
- 通过离散随机操作的反向传播
- 有向生成网络
- sigmoid 信念网络
- sigmoid 信念网络是一种具有特定条件概率分布的有向图模型的简单形式
- 我们可以将 sigmoid 信念网络视为具有二值向量的状态 s,其中状态的每个元素都受其祖先影响:
- 该结构是可见单元上概率分布的通用近似,即在足够深的情况下,可以任意良好地近似二值变量的任何概率分布(即使各个层的宽度受限于可见层的维度)
- 可微生成器网络
- 可微生成器网络使用可微函数将潜变量的样本变换为样本或样本上的分布,可微函数通常可以由神经网络表示。
- 生成器网络本质上仅是用于生成样本的参数化计算过程,其中的体系结构提供了从中采样的可能分布族以及选择这些族内分布的参数。
- 表示生成器网络的两种不同方法
- 当生成器网络在 x 上定义条件分布时,它不但能生成连续数据,也能生成离散数据。
- 当生成器网络直接提供采样时,它只能产生连续的数据(我们
可以在前向传播中引入离散化,但这样做意味着模型不再能够使用反向传播进行训练)。直接采样的优点是,我们不再被迫使用条件分布
- 变分自编码器
- 变分自编码器是一个使用学好的近似推断的有向模型,可以纯粹地使用基于梯度的方法进行训练。
- 变分推断和学习的传统方法是通过优化算法推断 q,通常是迭代不动点方程只要 z 是连续变量,我们就可以通过从中采样的样本反向传播,以获得相对于 θ 的梯度。
- VAE 框架可以直接扩展到大范围的模型架构。相比玻尔兹曼机,这是关键的优势,因为玻尔兹曼机需要非常仔细地设计模型来保持易解性。VAE 可以与广泛的可微算子族一起良好工作。
- 变分自编码器的一个非常好的特性是,同时训练参数编码器与生成器网络的组合迫使模型学习一个编码器可以捕获的可预测的坐标系。这使得它成为一个优秀的流形学习算法。
- 变分自编码器的一个缺点是它仅针对一个问题学习推断网络,即给定x推断z
- 生成式对抗网络
- 生成式对抗网络是基于可微生成器网络的另一种生成式建模方法。
- 生成矩匹配网络
- 生成矩匹配网络与 VAE 和 GAN 不同,它们不需要将生成器网络与任何其他网络配对,如不需要与用于 VAE 的推断网络配对,也不需要与 GAN 的判别器网络
- 我们可以通过最小化一个被称为最大平均偏差的代价函数来训练生成矩匹配网络。该代价函数通过向核函数定义的特征空间隐式映射,在无限维空间中测量第一矩的误差,使得对无限维向量的计算变得可行。当且仅当所比较的两个分布相等时,MMD 代价为零。
- 卷积生成网络
- 用于识别任务的卷积网络具有从图像到网络顶部的某些概括层的信息流要生成图像的表示通过网络传播时必须添加丰富的详细信息,最后产生图像的最终表示,这个最终表示当然是带有所有细节的精细图像本身
- 在卷积识别网络中丢弃信息的主要机制是池化层。而生成器网络似乎需要添加信息。由于大多数池化函数不可逆,我们不能将池化层求逆后放入生成器网络。更简单的操作是仅仅增加表示的空间大小。
- 线性自回归网络
- 自回归网络的最简单形式是没有隐藏单元,没有参数或特征共享的形式。每个被参数化为线性模型(对于实值数据的线性回归,对于二值数据的逻辑回归,对于离散数据的softmax回归)
- 神经自回归网络
- 神经自回归网络具有与逻辑自回归网络相同的从左到右的图模型新的参数化更强大,它可以根据需要随意增加容量,并允许近似任意联合分布。新的参数化还可以引入深度学习中常见的参数共享和特征共享原理来改进泛化能力。
-
- NADE
- 是最近非常成功的神经自回归网络的一种形式
- 引入了附加的参数共享方案
- sigmoid 信念网络
- 从自编码器采样
- 与任意去噪自编码器相关的马尔可夫链
-
- 夹合与条件采样
-
- 与任意去噪自编码器相关的马尔可夫链
- 生成随机网络
- 生成随机网络(generative stochastic network)除可见变量外,在生成马尔可夫链中还包含潜变量。
- 它们自己参数化生成过程而不是通过可见和潜变量的联合分布的数学形式
-
- 玻尔兹曼机最初作为一种广义的 “联结主义’’ 引入,用来学习二值向量上的任意概率分布 。主要讲二值玻尔兹曼机