［DeepLearning]如何使用对比散度(How to use Contrastive Divergence)

最新推荐文章于 2022-12-07 16:37:20 发布

风澈云间

最新推荐文章于 2022-12-07 16:37:20 发布

阅读量2.1k

点赞数

分类专栏：深度学习文章标签：深度学习

深度学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

假设可见层和隐藏层单元都是二值的。学习的目的是针对训练数据构建一个好的生成模型。

更新隐藏层

假设隐藏层单元是二值的，而且使用的是 $CD_1$ ，隐藏层单元在通过数据向量驱动得到时应该具有随机的二值状态。隐藏层单元置为1的概率为
$p(h_j=1)=\sigma (b_j + \sum_i v_iW_{ij})$
随机生成一个均匀分布的0到1之间的值，如果该值大于概率，则隐藏层单元状态置为1，否则为0。
使用二值而非概率作为隐藏层状态是相当重要的。如果使用概率作为隐藏层的状态，在重建可见层的时候，每个隐藏层单元就是一个实数值，这违反了information bottleneck，因为隐藏层单元平均最多只能表达一位。这个information bottleneck是一个强的正则化。
而最后一次更新隐藏层的状态时，则应该使用概率作为隐藏层的状态。因为不再需要使用隐藏层的状态来重建可见层了。所以直接使用概率来避免不必要的采样的噪音。当使用 $CD_n$ 时，只有最后一次隐藏层单元的更新使用概率。

更新可见层

在更新可见层状态时，正确的做法是根据以下概率随机选择将可见层单元置为0或1。
$p_i = p(v_i=1)＝\sigma (a_i + \sum_j h_jw_{ij}$
但是通常直接使用概率而非随机二值作为重建可见层的状态。

收集学习需要的统计数据

假设可见层使用实数概率而非随机二进制值。有两种收集positive static的方法。可见层单元 $i$ ,隐藏层单元 $j$ 。
<pihj>data <script type="math/tex" id="MathJax-Element-7"> _{data}</script> or <script type="math/tex" id="MathJax-Element-8"> _{data}</script>
$p_j$ 是隐藏层的概率， $h_j$ 是隐藏层的随机二值表示
使用 $h_j$ 更接近于RBM的数学模型。而实用 $p_j$ 通常能够减少采样的误差，能够学的更快。