Sigmoid Belief Net

最新推荐文章于 2022-12-26 19:26:50 发布

tkyjqh

最新推荐文章于 2022-12-26 19:26:50 发布

阅读量2k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/tkyjqh/article/details/54906347

版权

机器学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

概率生成模型（generative model）的目标就是要最大化输入数据x的概率p(x)，信念网络是图理论与概率论结合，信念网（Belief Nets）需要解决两个问题：
1. 推理（inference），推导未观察变量的状态。
2. 学习（learning），调整权值使得观察变量生成的概率最大。
早期的图模型是人工定义图结构（各节点之间的关系）和各变量之间的条件概率。对于随机生成神经网来说，结构和条件概率这些知识需要通过学习从训练数据中获得。
有两类随机生成神经网，一类是基于能量模型的Boltzmann Machine；一类是因果的Sigmoid Belief Net。
Boltzmann Machine定义了观察变量v和未观察变量h的联合分布概率 $p(v,h)=\frac{e^{-E(v,h)}}{\sum_{v,h}e^{-E(v,h)}}$ ， $E(v,h)=-\sum_i v_ia_i-\sum_jh_jb_j-\sum_{i,j}v_ih_jw_{ij}$ 是能量函数，通过调整权值可改变概率。有了联合分布概率，从而很容易得到观察变量的概率 $p(v)=\frac{\sum_he^{-E(v,h)}}{\sum_{v,h}e^{-E(v,h)}}$ ，学习调整权值的目的就是极大化观察变量的似然函数 $-\log p(v)$

1. SBN似然函数和对权值的偏导

SBN的结构则有更好的因果（causal）形式，其中未观察变量被看作观察变量发生的原因。SBN中定义的是未观察变量条件下的观察变量条件概率 $p(v|s_1,s_2,s_3)=p(v|s_1)p(s_1|s_2)p(s_2|s_3)p(s_3)$
对于任一节点 $s_i$ ，其状体为1的条件概率为：
$p_i=p(s_i=1|...,s_j,...)=\frac{1}{1+exp(-b_i-\sum_j s_j w_{ij})}$
因此，节点 $s_i$ ，其状态为1的概率为：
$p(s_i=1)=\sum_{...,s_j,...}p_ip(...,s_j,...)$
节点 $s_i$ 状态为1的似然函数为：
$\log (\sum_{...,s_j,...}p_ip(...,s_j,...))$
节点 $s_i$ 状态为0的似然函数为：
$\log (\sum_{...,s_j,...}(1-p_i)p(...,s_j,...))$
分别对1状态和0状态求似然函数对 $w_{ij}$ 的偏导，状态为1时的偏导为：
$\frac{\sum_{...,s_j,...}p_i(1-p_i)p(...,s_j,...)s_j}{\sum_{...,s_j,...}p_ip(...,s_j,...)}=\sum_{...,s_j,...}p(...,s_j,...|s_i)(s_i-p_i)s_j$
状态为0时的偏导为：
$-\frac{\sum_{...,s_j,...}p_i(1-p_i)p(...,s_j,...)s_j}{\sum_{...,s_j,...}(1-p_i)p(...,s_j,...)}=\sum_{...,s_j,...}p(...,s_j,...|s_i)(s_i-p_i)s_j$
因此，SBN中 $s_i$ 节点似然函数对 $w_{ij}$ 的偏导数为：
$\sum_{...,s_j,...}p(...,s_j,...|s_i)(s_i-p_i)s_j$ (1)
上式为 $(s_i-p_i)s_j$ 对条件概率 $p(...,s_j,...|s_i)$ 的期望值，如果通过Monte Carlo采样算法来计算（1）式，需要模拟条件概率 $p(...,s_j,...|s_i)$ 的发生，这是一个非常困难的事情。如果 $p(...,s_j,...|s_i)$ 条件独立，即：
$p(...,s_j,...|s_i)=p(...|s_i)p(s_j|s_i)p(...|s_i)$
通过简化，从而使得（1）式可以计算，但是由于Explaining away现象的出现，条件独立的条件不存在，因此（1）式计算非常困难。

2. Wake Sleep算法

Hinton et. al. 1995年提出了Wake-Sleep算法，用一个近似的方法来模拟条件概率 $p(...,s_j,...|s_i)$ 的发生。
一个是条件独立：
$p(...,s_j,...|s_i)=p(...|s_i)p(s_j|s_i)p(...|s_i)$
另一是引入识别权值（Recognition weights） $r_{ij}$ 来计算 $s_j$ 的条件概率：
$p(s_j=1|s_i)=\frac{1}{1+exp(-b_j-\sum_i s_i r_{ij})}$
在Wake阶段，固定 $r_{ij}$ 学习 $w_{ij}$ ；
在Sleep阶段，固定 $w_{ij}$ 学习 $r_{ij}$ 。
由于Explaining away的出现，实际上，条件独立并不成立，使得在Sleep阶段学习得到的条件概率 $p(...,s_j,...|s_i)$ 与实际情况发生了偏差。

3. 最小描述字长（description length）与Wake Sleep算法

假设在SBN中，隐藏层节点的所有状态构成一个编码字典， $\alpha$ 为一个码字，对于任一输入d用码字 $\alpha$ 进行编码总共花费的字长为（包括编码字典的花费和输入d的编码花费，分别对应公式中第一项和第二项）：
$C(\alpha ,d)=C(\alpha)+C(d|\alpha)=\sum_{l\in L}\sum_{j\in l}C(s_j^\alpha)+\sum_iC(s_i^d|\alpha)$ (2)
其中， $C(s_j^\alpha)$ 为节点j的编码字长：
$C(s_j^\alpha)=-s_j^\alpha \log p_j^\alpha -(1-s_j^\alpha)\log (1-p_j^\alpha)$
（2）式中第一项为隐藏层节点编码字长，第二项为输入层节点字长。
所以输入d的平均编码字长为：
$C(d)=\sum_\alpha p(\alpha)C(\alpha,d)-(-\sum_\alpha p(\alpha)\log p(\alpha))$ （3）
其中 $p(\alpha)$ 为码字 $\alpha$ 用于编码的概率，式中第二项对应编码字典的平均字长。
在Wake Sleep算法中， $p(\alpha)$ 由识别权重（Recognition Weights），可以表示为输入d的条件概率 $Q(\alpha|d)$ ，公式（3）重新改写如下：
$C(d)=\sum_\alpha Q(\alpha|d)C(\alpha,d)-(-\sum_\alpha Q(\alpha|d)\log Q(\alpha|d))$ （4）
在Sleep学习阶段， $C(\alpha,d)$ 概率分布不变，因为 $w$ 不变，需要调整 $r_{ij}$ ，使得 $C(d)$ 取值最小。 $Q(\alpha|d)$ 只有是如下Boltzmann分布时，C（d）才最小（ $-\log p(d)$ ，字长对应能量）：
$P(\alpha|d)=\frac{exp(-C(\alpha,d))}{\sum_\beta exp(-C(\beta,d))}$
因为，
$\log P(\alpha|d)=-C(\alpha,d)-\log \sum_\beta exp(-C(\beta,d))$
所以，
$\sum_\alpha (P(\alpha|d)-Q(\alpha|d))\log P(\alpha|d)=\sum_\alpha (Q(\alpha|d)-P(\alpha|d))C(\alpha,d)$
所以，（4）式进一步可以改写如下：
$C(d)=\sum_\alpha P(\alpha|d)C(\alpha,d)-(-\sum_\alpha P(\alpha|d)\log P(\alpha|d))+\sum_\alpha Q(\alpha|d)\log \frac{Q(\alpha|d)}{P(\alpha|d)}$
最后一项为KL散度距离，非负，为非最优编码方案下多余出来的编码字长。

tkyjqh

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Sigmoid Belief Net

generative model最大化p(x)，图理论与概率论结合，信念网（Belief Nets）需要解决两个问题： 1. 推理（inference），推导未观察变量的状态。 2. 学习（learning），调整权值使得观察变量生成的概率最大。早期的图模型是人工定义图结构和各变量之间的条件概率。对于随机生成神经网来说，结构和条件概率这些知识需要通过学习从训练
复制链接

扫一扫

专栏目录