RBM

目录

总结:

伯努利-伯努利RBM

概念:

公式定义

训练过程

高斯-伯努利RBM

概念:


总结:

  1. RBM是基于能量函数假设的,优化目标是使能量函数最小化,也设定为重构的可见层等于真实值的概率最大化。
  2. 在利用极大似然函数求解最优参数时,由于偏导数中存在模型的联合概率分布,包含归一化因子Z,使得难以准确计算出联合概率分布,因此常采用采样法使用局部值来代替全局值。(对数似然、求导、梯度更新)
  3. 使用采样法中,吉布斯采样根据全局的条件概率已知,但联合分布不知,使用马尔可夫链进行N步采样,最终联合分布趋于一个稳定值,作为最后的全局值用在梯度更新中。(每次更新都需要进行N次吉布斯采样)
  4. 使用吉布斯采样耗费资源(时间长),因此采用对比散度,即只使用一次吉布斯采样,在得到重构的可见层后,带入梯度更新公式进行优化。(主要思想是将每个可见层V都成一组训练样本,进行一部采样后根据重构误差进行权重更新)
  5. 高斯RBM与RBM区别是实值-二值、二值-二值,在隐藏层到可见层状态转化时,使实值概率来代替二值激活函数,从而使输入可以为实值。能量函数和条件概率不相同。

伯努利-伯努利RBM

概念:

还有疑问看这里,包含损失函数等。

Bernoulli-Bernoulli RBM (Restricted Boltzmann Machine) 伯努利-伯努利 限制玻尔兹曼机,简称Bernoulli RBM

Bernoulli RBM是一种图论模型,如下图所示,具有两层结构,可见层v和隐藏层h,可见层与隐藏层之间有权重参数W和两个偏执a,b。注意它们是公用W,但是不共用偏执。

RBM

优化目标: RBM是定义在能量函数上的模型,能量函数越小代表模型越有序分布越集中,反之能量函数越大则表示模型越无序或趋于均匀分布,因此我们的优化目标是最小化能量函数。

公式定义

由于RBM可见层之间单元无连接(相互独立),同理隐藏层也是,只有可见层与隐藏层之间有关联。

  • 能量函数:E(v,h)=-(a^{T}v + b^{T}h +h^{T}Wv)

  • 联合分布:P(v,h) = \frac{exp(-E(v,h))}{Z}

  • 归一化因子Z(常数):Z = \sum_{v,h}e^{-E(v,h)}

  • 可见层的边缘概率分布:P(v) = \frac{1}{Z}\sum_{h}e^{-E(v,h)}

  • 条件概率分布:\left\{\begin{matrix} P(h_{i}=1|v) = sigmoid(Wv+a) \\ P(v_{i}=1|h) = sigmoid(Wv+b) \end{matrix}\right.

  • 优化目标:  可见层概率最大值==能量函数最小值== 可见层概率的对数似然函数

我们使用极大似然估计法求使可见层概率最大时的模型参数\Theta =(W,a,b),如下所示:

训练过程

吉布斯采样:

 

在使用极大似然函数优化时,由于归一化因子难以计算,因此通常采取采样法采取局部值来近似代替全局值。使用N步采样就可以近似得到分布,但是耗时长。

对比散度:

参考:

[1] https://blog.csdn.net/zhihua_oba/article/details/69487730?utm_source=blogxgwz4

[2]https://blog.csdn.net/scythe666/article/details/78830340

[3]https://zhuanlan.zhihu.com/p/28548493

https://blog.csdn.net/zb1165048017/article/details/66473906

https://blog.csdn.net/bingo_csdn_/article/details/79443332?utm_source=blogxgwz9

https://blog.csdn.net/xingzhedai/article/details/53068019?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

吉布斯采样:https://blog.csdn.net/pipisorry/article/details/51373090

推导;https://blog.51cto.com/13345387/1971665

来源(能量函数):https://blog.csdn.net/scythe666/article/details/78830340

高斯-伯努利RBM

概念:

Bernoulli RBM基本定义相同,只不过Bernoulli RBM对可见层和隐藏层都使用二进制单位,并假设其服从伯努利分布,即0-1分布。但在许多应用中,可见层的观测数据是非二进制的,比如连续值等实值,Gaussian RBM通过规范化观测数据,利用二值可见单元的实值概率取代激活情况,使得输入可以为实值。(本质上是对观测数据做了一个变化)

高斯和二值 两个地方不一样,一个是能量函数,另一个是从隐含层到可见层的时候,使用的是高斯分布函数作为激活函数。二值都是使用sigmoid。

服从于

 

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值