机器学习笔记之深度信念网络(三)贪心逐层预训练算法

最新推荐文章于 2024-09-24 06:30:00 发布

静静的喝酒

最新推荐文章于 2024-09-24 06:30:00 发布

阅读量1k

点赞数

分类专栏：机器学习深度学习文章标签：算法人工智能贪心逐层预训练算法近似后验

本文链接：https://blog.csdn.net/qq_34758157/article/details/128646831

版权

本文详细介绍了深度信念网络的结构，特别是RBM的叠加思想。通过贪心逐层预训练算法，逐层优化模型参数，以提高对观测变量层的表示准确性。虽然这种方法可能导致ELBO的最优解不是全局最优，但其优势在于简化了样本生成过程。文章还对比了深度信念网络与深度玻尔兹曼机的区别，并探讨了各自的优缺点。

摘要由CSDN通过智能技术生成

机器学习笔记之深度信念网络——贪心逐层预训练算法

引言

引言

上一节介绍了深度信念网络模型的构建思想，本节将介绍后验概率求解——贪心逐层预训练算法。

回顾：深度信念网络的结构表示

深度信念网络本质上是 在已有 $\text{Sigmoid}$ 信念网络的基础上，使用 $\text{RBM}$ 层对隐变量的边缘概率分布进行学习 的逻辑。已知一个深度信念网络表示如下：
深度信念网络——示例
这明显是一个四层深度信念网络，具体包含两个部分：

观测变量层 $v^{(1)}$ ，隐变量层 $h^{(1)},h^{(2)}$ 组成的 $\text{Sigmoid}$ 信念网络；
隐变量层 $h^{(1)},h^{(2)}$ 组成的受限玻尔兹曼机

该网络中随机变量结点的联合概率分布可表示为：
任意相邻的随机变量层之间存在关联关系，也就是说，没有直接关联关系的层如 $h^{(1)}$ 与 $h^{(3)}$ 之间条件独立。具体结构详见:贝叶斯网络——结构表示与马尔可夫随机场——结构表示
$\begin{aligned} \mathcal P(v^{(1)},h^{(1)},h^{(2)},h^{(3)}) & = \mathcal P(v^{(1)} \mid h^{(1)},h^{(2)},h^{(3)}) \cdot \mathcal P(h^{(1)},h^{(2)},h^{(3)}) \\ & = \mathcal P(v^{(1)} \mid h^{(1)}) \cdot \mathcal P(h^{(1)} \mid h^{(2)},h^{(3)}) \cdot \mathcal P(h^{(2)},h^{(3)}) \\ & = \mathcal P(v^{(1)} \mid h^{(1)}) \cdot \mathcal P(h^{(1)} \mid h^{(2)}) \cdot \mathcal P(h^{(2)},h^{(3)}) \end{aligned}$
其中， $\mathcal P(v^{(1)} \mid h^{(1)}),\mathcal P(h^{(1)} \mid h^{(2)})$ 均是 $\text{Sigmoid}$ 信念网络关于随机变量的后验概率，因而可以进行如下表示：
其中 $\mathcal W_{h^{(1)} \to v^{(1)}},\mathcal W_{h^{(2)} \to h^{(1)}}$ 均表示随机变量层与层之间的权重信息，并且均以矩阵的方式表示，例如:
$\mathcal W_{h^{(1)} \to v^{(1)}} = \left[\mathcal W_{h_j^{(1)} \to v_i^{(1)}}\right]_{|\mathcal D| \times |\mathcal P^{(1)}|}$
其中 $\mathcal D,\mathcal P^{(1)}$ 分别表示观测变量层、第一层隐变量的随机变量集合；对应的 $|\mathcal D|,|\mathcal P^{(1)}|$ 表示各层随机变量的个数。
同理，对应层的偏置项 $b^{(k)}(k=0,1,2,3)$ 表示为(以 $b^{(0)}$ 为例)：
$b^{(0)} = \left(b_1^{(0)},b_2^{(0)},\cdots,b_{|\mathcal D|}^{(0)}\right)_{|\mathcal D| \times 1}^T$
两种后验概率均表示生成过程，详见Sigmoid信念网络的定义。