DeepLearning(深度学习)原理与实现(一)

本文介绍了深度学习的起源,特别是多伦多大学Geoffrey Hinton教授的贡献,强调了DeepLearning如何通过概率图模型解决传统神经网络的局部最小问题。重点讨论了Restricted Boltzmann Machines (RBM),解释了其作为能量模型的工作原理,以及如何使用 Contrastive Divergence (CD) 算法进行参数更新。此外,文章还提及了DBN和DBM的训练方法,以及深度学习中概率图模型和神经网络的融合应用。
摘要由CSDN通过智能技术生成

       经过三年的狂刷理论,觉得是时候停下来做些有用的东西了,因此决定开博把他们写下来,一是为了整理学过的理论,二是监督自己并和大家分享。先从DeepLearning谈起吧,因为这个有一定的实用性(大家口头传的“和钱靠的很近”大笑),国内各个大牛也都谈了不少,我尽量从其他方面解释一下。

        DeepLearning算是多伦多大学Geoffery hinton教授第二春吧,第一春就是传统神经网络,由于传统的多层感知机很容易陷入局部最小,直接用反向传播算法(Back Propagation)求取的分类效果并不如意,原因一是特征是手工的,二就是局部最小问题。而DeepLearning引入了概率图模型里的生成模型,他可以直接自动的从训练集里提取所需要的特征,典型的模型为有限制玻尔兹曼机(Restricted Boltzmann Machines,简称RBM),自动提取的特征解决了手工特征考虑不周的因素,而且很好的初始化了神经网络权重,接着可以采用反向传播算法进行分类,实验得出了很好的效果。 因此DeepLearning被喻为下一代神经网络。今天的话题就来讨论下RBM:

       再说RBM之前,我们先提一下基于能量的模型(Engery based model),能量方法来源于热动力学,分子在高温中运动剧烈,能够克服局部约束(分子之间的一些物理约束,比如键值吸引力等),在逐步降到低温时,分子最终会排列出有规律的结构,此时也是低能量状态。受此启发,早期的模拟退火算法就是在高温中试图跳出局部最小。随机场作为物理模型之一,也引入了此方法。在马尔科夫随机场(MRF)中能量模型主要扮演着两个作用:一、全局解的度量(目标函数);二、能量最小时的解(各种变量对应的配置)为目标解,能否把最优解嵌入到能量函数中至关重要,决定着我们具体问题求解的好坏。统计模式识别主要工作之一就是捕获变量之间的相关性,同样能量模型也要捕获变量之间的相关性,变量之间的相关程度决定了能量的高低。把变量的相关关系用图表示出来,并引入概率测度方式就够成了概率图模型的能量模型,其实实际中也可以不用概率表示,比如立体匹配中直接用两个像素点的像素差作为能量,所有像素对之间的能量和最小时的配置即为目标解。RBM作为一种概率图模型,引入概率就是为了方便采样,因为在CD(contrastive 

  • 8
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 20
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 20
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值