深度学习之RBM

记录RBM的原理。个人愚见。一点点写。

首先要理解玻尔兹曼机的由来。玻尔兹曼机是由Hopfield网络发展过来的.有一些说法是以模拟退火算法来引入的,但这个是误解,应该已另一种方式来引入.首先我们要理解热平衡是什么,一个系统的稳定,并不是说这个系统不再变化,而是这个系统的一个个部分可能都在变化,但是这个系统的整体并没有变化。我们可以想象,一个系统是由许多个随机hopfield网络组成的,我们以我们想要的分布来初始化这些hopfield,然后我们用这些更新规则,来让hopfiled的单元进行 0 1 之间的更新,当经过多次更新以后,每个Hopfield都有了各自的状态,并达到了所有可能的取值,那么再更新一次时,其中一个hopfiledA的值变化了,那么又会有另一个hopfieldB网络经过更新达到了hopfiledA的状态,所以系统的局部是在变,但是系统的整体是不变的。上面用状态来表示并不好,更能说明问题的是概率,每个状态的概率。造成这个的原因是分布。足够多的hopfield网络经过多次更新,符合了某分布,每个状态的概率都是能确定的。

这是一个类比,有助于我们理解这个概念。想象在Las Vegas中有一个非常大的赌场,有着许多的荷官,而且我们有着超过52阶乘的荷官。在开始的时候,让所有的扑克牌以标准顺序打包,然后假设有黑桃A,黑桃K和黑桃Q,然后荷官开始洗牌,他们是随机洗牌的,他们的洗牌方式不会让牌都再一次(只有初始的时候相同)有着相同的顺序。在洗牌之后,仍然有机会使得在任何打包中黑桃K的下一个是黑桃Q。所以这个打包还是没有忘记它们是从哪里开始的信息。它们的初始化顺序仍然影响它们当前的顺序,如果我们一直洗牌,最后初始化顺序会变得无关紧要。这个打包就会忘记它们从哪开始的。在这个例子中,事实上,它们在这52!可能的顺序中每个顺序上都有着相同数量的打包(个人:就是在每个可能的排序上洗牌的次数相同,这里说的应该是概率)。一旦这样发生了(个人:也就是达到平衡了),如果我们接着洗牌,那么仍然在这52!顺序中每个顺序上还是有着相同数量的打包,这也就是为什么被称之为平衡的原因,因为在任何一个组态中的每个部分都没有改变,即使这些独立的系统仍然还在改变。

这个类比的一个错误在于一旦我们达到了平衡,所有的就有相同的能量,所以它们都有着相同的概率。通常来说,我们感兴趣于那些有着比其他更低能量结构的系统达到平衡。

玻尔兹曼机是一种无监督学习网络,无监督学习的目的的是最大拟合输入数据,而对于一组输入数据我们很难知道他的分布,例如,知道它符合高斯分布,那就可以写出似然函数,然后求解,就能求出这个是一个什么样个高斯分布;但是要是不知道它符合一个什么分布,那可是连似然函数都没法写的,问题都没有,根本就无从下手。但是统计学结论表明,任何概率分布都可以转变成基于能量模型

玻尔兹曼机是一种根据能量和概率分布的模型。受限玻尔兹曼机是一种特殊的玻尔兹曼机,它的可视层和隐藏层内部的节点之间没有连接。

定义能量函数为:

其中0(因为懒不想再去转图片,就用了0代替)={wij,aj,bi:i<=i<=n,1<=j<=m},wij表示可视节点和隐藏结点之间的权值,aj表示可视层的偏置值,bi表示隐藏层的偏置值.

当参数确定时,利用能量函数可以得到受限玻尔兹曼机的联合分布:

 Z()为归一函数。

我们知道,我们是要拟合传入的可视数据的分布,所以我们利用似然函数,定义对数似然函数为:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值