论文笔记_Maxout Networks

摘要

  本文考虑使用最近提出的一种近似模型平均技术–dropout。本文使用dropout技术设计了一个名为maxout的模型,旨在通过dropout来加快优化过程,并提高准确度,模型名称之所以叫做maxout,是因为该模型的输出是模型输入的最大值,且它是dropout的自然伴侣。我们通过实验验证了该模型成功地完成了这两个任务。我们使用maxout和dropout来演示在四个基准标记数据集(MNIST、CIFAR-10、CIFAR-100和SVHN)上的最新分类性能。

1.介绍

  Dropout提供了一种廉价且简单的方法,既可以训练共享一大批数据的模型,也可以大致平均这些模型的预测。Dropout应用于多层感知机和深度卷积神经网络,提升了从音频分类到大规模对象识别任务的现有水平。虽然Dropout在实践中运行良好,但是还没有证明它可以实际执行深层体系结构的模型平均。通常认为Dropout是一种不加区分的适用型工具,几乎可以应用于任何模型,都可以产生一定的性能改进。
  我们认为与其在任意的模型上适用dropout从而带来轻微的性能提升,也许还不如直接设计一个模型来提高dropout作为模型平均技术的能力,从而获得最佳的性能。使用dropout进行模型训练与之前的类似于SGD的方法有很大不同。当在参数空间中的步长比较大时,Dropout是最有效的,在这种情况下,每次的更新都可以看作是在训练集的不同子集上对不同模型进行了重大更新。Dropout的理想操作机制是:在参数共享的约束下时,整个训练过程类似于使用bagging的集成学习。这些与与SGD的理想操作机制完全不同,SGD的理想操作机制中,单个模型通过小的步长来实现平稳的运行。另一个需要考虑的问题是,当应用到深层模型时,dropout模型平均值只是一个近似值。明确的设计模型使得近似误差最小化,也许可以提升dropout的性能。
  我们提出了一个简单模型,叫做maxout,它具有优化模型和模型平均的特点。我们将这个模型与dropout结合使用,在4个基准数据集上取得了更高的性能。

2.回顾Dropout

  Dropout是一种可以应用于确定性前馈结构的技术,确定性前馈结构在给定输入向量 v v v后,输出预测向量 y y y。该架构包含了一系列的隐含层 h = { h ( 1 ) , . . . , h ( L ) } h =\{ h^{(1)},...,h^{(L)} \} h={ h(1),...,h(L)}。Dropout训练一组由包含 v v v h h h中变量的子集组成的所有模型组成的模型。使用同一组参数 θ \theta θ来表示一组分组 p ( y ∣ v ; θ , μ ) p(y|v;\theta,\mu) p(yv;θ,μ),其中 μ ∈ M \mu \in M μM 是一个二进制掩码,用来决定模型中那些变量参与运算。每次在训练集上进行训练时,我们都按照 l o g p ( y ∣ v ; θ , μ ) log p(y|v; \theta, \mu) logp(yv;θ,μ)的梯度对不同的 μ \mu μ随机取样训练不同的子模型。可以通过 v v v h h h和掩码的按元素相乘得到不同子模型 p ( y ∣ v ; θ , μ ) p(y|v;\theta,\mu) p(yv;θ,μ)的实例。Dropout的训练与bagging类似,都是在不同的子集上训练出不同的模型。但是,Dropout和bagging的不同之处是在于dropout只训练一次,且所有模型共享参数。这个训练过程要表现的像是在训练一个模型集合而不是训练单个模型,每次的更新都必须有重大的影响,这样才能使得该子模型能较好的拟合当前的输入 v v v
  当集合需要将所有子模型的预测平均起来进行预测时,函数形式就变得非常重要。之前的很多工作,例如bagging,是对子模型的输出进行算数平均,但是对于许多由dropout训练出来的指数型模型,如何计算平均值只一点还不清楚。幸运的是,一些模

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值