机器学习-白板推导系列笔记（二十八）-BM_elman神经网络有什么用-CSDN博客

本文链接：https://blog.csdn.net/qq_41485273/article/details/112337238

本文是关于玻尔兹曼机的白板推导笔记，涵盖Log似然梯度、MCMC的随机梯度上升和基于平均场理论的变分推断。通过解析条件概率和模型复杂度，深入理解玻尔兹曼机的训练过程。

摘要由CSDN通过智能技术生成

此文章主要是结合哔站shuhuai008大佬的白板推导视频：玻尔兹曼机_147min

全部笔记的汇总贴：机器学习-白板推导系列笔记

参考花书20.1

一、介绍

玻尔兹曼机连接的每个节点都是离散的二值分布，是全连接的，是为了解决局部最小值的问题而提出的玻尔兹曼机。

在这里插入图片描述

$v=\{0,1\}^D\;\;\;\;\;h=\{0,1\}^P\\L=\Big[L_{ij}\Big]_{D*D}\\J=\Big[J_{ij}\Big]_{P*P}\\W=\Big[W_{ij}\Big]_{D*P}$

$\left\{\begin{matrix} p(v,h)= \frac1Z\exp\{-E(v,h)\}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\E(v,h)=-(v^TWh+\frac12v^TLv+\frac12h^TJh)\end{matrix}\right.\\\theta=\{W,L,J\}$

二、Log似然的梯度

样本集合： $V,\;|V|=N$

$P(v)=\sum_hp(v,h)\\\frac1N\sum_{v\in V}\log P(v)\leftarrow\;\;log-likelihood\\\frac\partial {\partial \theta}\frac1N\sum_{v\in V}\log P(v)=\frac1N\sum_{v\in V}{\color{blue}\frac{\partial\log P(v)} {\partial \theta}}\leftarrow gradient\;of\;log-likelihood$

$\frac{\partial\log P(v)} {\partial \theta}=\sum_v\sum_h p(v,h)\cdot\frac{\partial E(v,h)}{\partial \theta}-\sum_hp(h|v)\cdot\frac{\partial E(v,h)}{\partial \theta}$
$\frac{\partial\log P(v)} {\partial W}=\sum_v\sum_h p(v,h)\cdot(-vh^T)-\sum_hp(h|v)\cdot(-vh^T)\\=\sum_hp(h|v)\cdot vh^T-\sum_v\sum_h p(v,h)\cdot vh^T$

所以，

$\frac1N\sum_{v\in V}{\frac{\partial\log P(v)} {\partial \theta}}=\frac1N\sum_{v\in V}\sum_hp(h|v)\cdot vh^T-\frac1N\sum_{v\in V}\sum_v\sum_h p(v,h)\cdot vh^T\\=\frac1N\sum_{v\in V}\sum_hp(h|v)\cdot vh^T-\sum_v\sum_h p(v,h)\cdot vh^T\\=E_{P_{Data}}\Big[vh^T\Big]-E_{P_{model}}\Big[vh^T\Big]$
$P_{Data}=P_{Data}(v)P_{model}(h|v)\\P_{model}=P_{model}(h,v)=P_{model}(v)P_{model}(h|v)$

三、基于MCMC的随机梯度上升

由上述推导，同理可得：

$\Delta W=\partial\Bigg(E_{P_{Data}}\Big[vh^T\Big]-E_{P_{model}}\Big[vh^T\Big]\Bigg)$
$\Delta L=\partial\Bigg(E_{P_{Data}}\Big[vv^T\Big]-E_{P_{model}}\Big[vv^T\Big]\Bigg)$
$\Delta J=\partial\Bigg(E_{P_{Data}}\Big[hh^T\Big]-E_{P_{model}}\Big[hh^T\Big]\Bigg)$

$P_{Data}=P_{Data}(v)P_{model}(h|v)\\P_{model}=P_{model}(h,v)=P_{model}(v)P_{model}(h|v)$

$W^{(t+1)}=W^{(t)}+\Delta W$