本文是关于玻尔兹曼机的参数训练过程的介绍。因此基本知识请参照相关论文和博客介绍。
一个典型的玻尔兹曼机,可以表达成一个能量函数的指数形式,能量函数的具体表达式见网上其它的博客说明。这里简单记为:E(h,v)。v表示可视节点,h表示隐单元变量。那么一个玻尔兹曼机的概率表达式如下:
对于随机梯度下降,给定一个观测样本v’,那么似然函数为:
一次梯度的计算为:
其中,能量函数对参数的偏导是好计算的,那么困难的地方在于h的后验分布的估计以及样本的边缘分布的期望。对于后验分布的估计,一种是模型的裁剪即受限玻尔兹曼机,在受限玻尔兹曼机中后验是可以计算的,详见后续。另一种就是采用变分推断,用近似的边缘分布的乘积来近似联合分布,具体详见后续。
对于样本的边缘分布的函数期望,用Gibbs采用来解决这个问题,具体详见后续。