Learning multiple layers of representation理解

《Learning multiple layers of representation》是Hiton教授2007年发表在Trends. Cogn.Sci.上的一篇文章是深度学习的一篇经典文章,被引率非常高。

在文章的开始,提出的思想是:不同于以往学习一个分类器的目标,而是希望学习一个生成模型(generative model)。
作者指出,在一个神经网络中,如果它既包含自底向上的“识别”连接,也包含自顶向下的“生成”连接,就可以使用自底向上的过程来识别数据,而使用自顶向下的过程来产生数据。如果神经元是随机的,重复自顶向下的过程,将产生一个数据矢量的完整的分布。这表明,通过调整自顶向下的连接权值,来使得网络产生训练数据的概率达到最大,则训练数据将被驻留(reside in)在自顶向下的权值中。
    可以用RBM(受限波尔兹曼机)的隐层来建模二值图像像素间的高阶相互关系。为了从训练图像集中学习一套好的特征检测子,像素i和特征检测子j间的初始权值被置为0,使用两对相互关系之间的差异迭代地更新权值,即像素i和特征检测子j之间同时出现的频率,一是受训练图像驱动时的,二是受重构后的图像驱动时的,相似的学习规则也可用于偏差(bias)。一旦RBM的隐层确定,我们就产生了一个对训练图像的重构。通过组合RBM来学习多层特征。
关于产生式模型:由于模型被很强的约束,所以后验分布能被高效和准确的推理。
作者首先介绍了几个产生式模型:
因子分析(factor analysis):有一个单隐层的高斯隐变量,它们对可视变量的关系是线性的,
           独立高斯噪声被添加给每个可视变量。给定一个可视变量,不可能推出产生它的因
           子的确切的状态,但是很容易推出因子的高斯后验分布的均值和协方差,这足以使
           得模型的参数被增强。
独立成份分析(Indenpendent component analysis):是因子分析的进一步泛化,允许非高斯的
           隐变量,但是通过消除在可见变量上的观察噪声以及约束隐层变量和可见层变量的数
           目相等而维护了推理的简单。这些约束也使得后验分布最终聚到一个点,因为对于每
           一个可见变量,仅仅一套隐变量能确切的产生它。
混合模型(Mixture model):每个数据矢量被假定仅仅由混合中的一个成份分布产生,并且它在
          每个成份分布下很容易计算密度。
作者指出,如果因子分析被泛化来允许非高斯隐变量,它能建模低层视觉感知域的发展。然而,
如果不强加额外的约束(如在独立成份分析中的约束),它将不容易推理甚至很难表示给定隐变量
下的后验分布。这是由于一种称作为explain away的现象造成的。

关于多层产生式模型:

作者指出:仅仅有一个隐层的产生式模型对于建模到达脑皮层的高维、具有丰富结构的

感知数据是太简单的一个模型了,对于多层网络,对每个数据矢量如果我们能发现某种

方法能推出基于隐变量的后验概率,则学习一个多层产生是模型就相对直接了;如果我

们能从后验分布中获得无偏样本,则学习也相对直接了。在这种情况下,我们简单的调

整参数以便来增加在每一层中的隐变量的样本状态的概率,将产生下一个隐层或可见变

量的样本状态。

      在logistic信念网络的例子中,对每个训练样例的学习规则是某种形式的deta规则,

所推理的状态hi,它是后突触单元i的状态,作为目标值;给定在上一层的所有的前突触单

元j的推理状态hj,激活i的概率 h^ h^ 作为预测: Δwijhj(hihi^)) Δwij∝hj(hi−hi^))

Δwji Δwji 是连接j和i之间的权值的变化。

     如果i是可见单元,hi就被训练样例中的i的实际状态来代替。如果训练矢量以相等的概率从

训练集中选择,并且隐状态从给定训练矢量的后验分布中采样,上式的学习规则对产生式模型如果

运行N次将产生确定的N个训练矢量的概率有正期望效果。

关于用于多层产生式模型的近似推理:

      作者指出: 除了考虑产生每个训练样例的log概率,还应考虑推理过程的准

确度;如果其他都一样,我们希望近似推理方法尽可能精确;我们会选择一个

模型也许它产生数据的概率不是最高,但是却能有对隐表示的更加准确的推理。

因此很有意义的是当最大化观察数据的log概率时,对每个训练样例使用不精确

推理作为一个惩罚项。这也将导致一个新的目标函数,它更加容易最大化,并

且在产生训练数据的log概率上有一个变化的低边界(lower-bound)。

      对于处理复杂产生式模型的推理问题的一个标准方法就是通过优化一个变化

边界来学习。

具有快速准确推理的非线性模型:

 

      介绍受限波尔兹曼机(RBM),并指出它是寻找用于深度、有向产生式模型的

高效学习算法的关键。

      像素具有二值的图像能用RBM的隐层来建模像素间的更高阶的相互关系。为了

从训练图像集合中学习一个好的特征检测子的集合,先将像素i和特征检测子j之间的

初始权值置为0;然后使用下式重复更新每个权值wij:

     

为学习率;<Vh>是当特征检测子受训练集中的图像驱动时像素i和特征检测子j

同时出现的频率;<Vh>当特征检测子受重构后的图像驱动时像素i和特征检测

子j同时出现的频率。一个相似的学习规则也能用于偏差。

      给定一个训练图像,设定每个特征检测子为1的概率为:

     P(hj=1)=)其中为logistic函数,bj是偏差,Vi是像素i的二值状态;一旦为

隐单元选择了二值状态,则通过用如下概率设定每个像素的值为1将产生一个图像的重构:

P(vi=1)=

    在此,所学习的权值和偏差直接根据上两式决定了条件分布P(h|v)和P(v|h);非直接的,

权值和偏差定义了联合和边缘概率P(v,h)和P(v),P(h)。

    从联合概率中采样是困难的,但是可以使用轮流的Gibbs采样。如果Gibbs采样时间足够

长,网络将达到热平衡。

    RBM的两个优点:首先,推理容易;给定可视矢量,在隐矢量上的后验分布因式分解为

每个隐单元独立分布的乘积;因此为了从后验中获得采样,只需简单按照相应的概率打开

每个隐单元;其次,通过堆叠RBM,很容易一次一层的学习深度有向网络。





  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值