第十五周学习笔记
阅读
第十八章 直面配分函数
配分函数 Z ( θ ) Z(\theta) Z(θ)是概率分布的归一化因子,一些概率模型中可以被设计成无需计算归一化常数,而有些则必须直面计算归一化因子的问题
p ( x ; θ ) = 1 Z ( θ ) p ^ ( x ; θ ) p(x;\theta)=\dfrac{1}{Z(\theta)}\hat{p}(x;\theta) p(x;θ)=Z(θ)1p^(x;θ)
1.对数似然梯度
通过最大似然学习无向模型特别困难的原因在于配分函数依赖于参数。对数似然相对于参数的梯度具有一项对应于配分函数的梯度:
∇ θ log p ( x ; θ ) = ∇ θ log p ^ ( x ; θ ) − ∇ θ log Z ( θ ) \nabla_\theta \log p(x;\theta)=\nabla_\theta \log\hat{p}(x;\theta)-\nabla_\theta \log Z(\theta) ∇θlogp(x;θ)=∇θlogp^(x;θ)−∇θlogZ(θ)
这是机器学习中非常著名的正相和负相分解
2.随机最大似然和对比散度
- 随机最大似然,每次需要计算梯度时,磨合随机初始化的一组马尔可夫链
- 对比散度,在每个步骤中初始化马尔可夫链为采样数据分布中的样本
3.伪似然
无向概率模型中很容易计算概率的比率,这样可以使配分函数出现在比率的分子和分母中,从而相互抵消,使用条件概率(比例形式)代替原似然
4.得分匹配和比率匹配
- 得分匹配,最小化模型对数密度和数据对数密度关于输入的导数之间的平方差期望,来避免估计 Z Z Z
- 比率匹配,将得分匹配的基本想法扩展到离散数据的方法
5.去噪得分匹配
拟合以下分布来正则化得分匹配
p s m o o t h e d ( x ) = ∫ p d a t a ( y ) q ( x ∣ y ) d y p_{smoothed}(x)=\int p_{data}(y)q(x|y)dy psmoothed(x)=∫pdata(y)q(x∣y)dy
而不是拟合真实分布 p d a t a p_{data} pdata
6.噪声对比估计
噪声对比估计(noise-contrastive estimation, NCE)模型
log p m o d e l ( x ) = log p ^ ( x ; θ ) + c \log p_{model}(\mathbf{x})=\log \hat{p}(\mathbf{x};\mathbf{\theta})+c logpmodel(x)=logp^(x;θ)+c
使用相同的算法同时估计 θ \theta θ和 c c c
7.估计配分函数
在比较两个概率模型时,需要比较测试集在模型上的概率似然,此时需要知道二者的归一化因子,或者二者归一化因子的比例,估计配分函数的方法有
- 退火重要采样
- 桥式采样
第十九章 近似推断
许多概率模型难以训练的原因是很难进行推断。对于可见变量 v v v和一系列潜变量 h h h,推断困难指难以计算 p ( h ∣ v ) p(h|v) p(h∣v)或其期望
1.把推断视作优化问题
通过优化似然函数的下界来优化似然函数
2.期望最大化
期望最大化(expectation maximization, EM)算法是一个最大化下界的算法
3.最大后验推断和稀疏编码
最大后验推断(Maximum A Posteriori,MAP):
h ⋆ = arg max h p ( h ∣ v ) h^{\star}=\arg \max_h p(h|v) h⋆=arghmaxp(h∣v)
稀疏编码是一种在隐藏单元上加上了诱导稀疏性的先验知识的线性因子模型
4.变分推断和变分学习
变分学习的核心思想是在一个关于q的有约束的分布族上最大化L
5.学成近似推断
将多步的迭代过程看作一个函数,用一个神经网络来近似它
第二十章 深度生成模型
1.玻尔兹曼机
玻尔兹曼机最初作为一种广义的“联结主义”引入,用来学习二值向量上的任意概率分布
2.受限玻尔兹曼机
RBM是包含一层可观察变量和单层潜变量的无向概率图模型
3.深度信念网络
深度信念网络是具有若干潜变量的生成模型
4.深度玻尔兹曼机
深层的RBM
5.实值数据上的玻尔兹曼机
将玻尔兹曼机从二值扩展到实值
6.卷积玻尔兹曼机
引入卷积与池化结构
7.用于结构化或序列输出的玻尔兹曼机
- 条件RBM
- RNN-RBM
8.其他玻尔兹曼机
- 高阶玻尔兹曼机
9.有向生成网络
- sigmoid信念网络
- 可微生成网络
- 变分自编码器
- 生成对抗网络
- 生成矩匹配网络
- 卷积生成网络
- 自回归网络
- 线性自回归网络
- 神经自回归网络
- NADE
10.从自编码器采样
11.生成随机网络
去噪自编码器的推广,除可见变量外,在生成马尔可夫链中还包括潜变量h
12.其他生成方案
- 扩散反演
- 近似贝叶斯计算
13.评估生成模型
样本的视觉质量是不可靠的标准,所以计算可行时,评估模型分配给测试数据的对数似然,但这在某些情况下也会无效