对比散度contrastive divergence

CD是Hinton为了训练他的Product of Expert模型提出的,后来用于训练RBM。
CD是最大似然法的近似算法,Contrastive Divergence (CD) is an approximate Maximum-Likelihood.
(ML) learning algorithm proposed by Geoffrey Hinton
最大似然法是训练权重的最理想的方法。CD provides an approximation to the maximum likelihood method that would ideally be applied for learning the weights
本文参考了这篇笔记

为什么需要CD

训练单个RBM时,权重的更新用梯度下降:
在这里插入图片描述
其中p(v)是显层向量的联合概率,由这个向量的的能量决定:分子表示各种可能的隐层向量h下v的能量总和,分母是配分函数,是所有可能的v,h搭配情况的能量总和,是为了归一化used for normalizing。
在这里插入图片描述
E(v,h)是整个RBM网络的能量。由显层隐层单元具体取值确定。能量越低的(v,h)/网络越是我们想要的。A lower energy indicates the network is in a more “desirable” configuration.

∂ l o g ( P ( v ) ) ∂ w i j = &lt; v i h j &gt; d a t a − &lt; v i h j &gt; m o d e l \frac{\partial log(P(v))}{\partial w_{ij}}=&lt;v_ih_j&gt;_{data}-&lt;v_ih_j&gt;_{model} wijlog(P(v))=<vihj>data<vihj>model
其中 &lt; &gt; p &lt;&gt;_p <>p表示分布p的平均。 represent averages with respect to distribution p。 如:
&lt; ∂ l o g f ( x k ; Θ ) ∂ Θ &gt; X = 1 K ∑ k = 1 K ∂ l o g f ( x k ; Θ ) ∂ Θ &lt;\frac{\partial logf(x_k;\Theta)}{\partial \Theta}&gt;_{\boldsymbol X}=\frac1K\sum_{k=1}^K\frac{\partial logf(x_k;\Theta)}{\partial \Theta} <Θlogf(xk;Θ)>X=K1k=1KΘlogf(xk;Θ)
&lt; ∂ l o g f ( x ; Θ ) ∂ Θ &gt; p ( x ; Θ ) = ∫ p ( x ; Θ ) ∂ l o g f ( x ; Θ ) ∂ Θ d x &lt;\frac{\partial log f(x;\Theta)}{\partial \Theta}&gt;_{p(x;\Theta)}=\int p(x;\Theta)\frac{\partial log f(x;\Theta)}{\partial \Theta}dx <Θlogf(x;Θ)>p(x;Θ)=p(x;Θ)Θlogf(x;Θ)dx

这个运算很难算,computationally intractable, 所以我们换个办法——数值近似:通过CD算法经过n次(n常常取1可以取得好的效果)采样得到 &lt; &gt; p &lt;&gt;_p <>p

The issue arises in sampling &lt; v i h j &gt; m o d e l &lt;v_ih_j&gt;_{model} <vihj>mod

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值