Abstract
- 我们考虑设计模型的问题,以利用最近引入的称为丢失的近似模型平均技术。 我们定义了一个名为maxout的简单新模型(之所以如此命名,因为它的输出是一组输入的最大值,因为它是丢失的自然伴随),旨在通过丢失促进优化,并提高丢失的快速近似模型平均值的准确性 技术。 我们凭经验验证模型是否成功完成了这两项任务。 我们使用maxout和dropout来展示四种基准数据集的最新分类性能:MNIST,CIFAR-10,CIFAR100和SVHN。
Introduction
- Dropout(Hinton等人,2012)提供了一种廉价而简单的方法,既可以训练大型模型集合,也可以将这些模型的预测大致平均化。应用于多层感知器和深度卷积网络的Dropout改善了从音频分类到超大规模物体识别等任务的最新技术水平。Dropout通常被视为一种不加区分的适用工具,当应用于几乎任何模型时,可以可靠地产生适度的性能提升。
- 我们认为,与使用Dropout作为应用于任意模型的轻微性能增强相比,可以通过直接设计增强Dropout能力的模型作为模型平均技术来获得最佳性能。在这种情况下,每次更新都可以被视为对训练集的不同子集上的不同模型进行重大更新。Dropout的理想操作方式是整个训练过程类似于在参数共享约束下训练带有装袋的整体。这与理想的随机梯度操作机制完全不同,其中单个模型通过小步骤稳定地进行。另一个考虑因素是,当应用于深度模型时,Dropout模型平均仅是近似值。 明确地设计模型以最小化该近似误差可以因此也增强了Dropout的性能。
- 我们提出了一个简单的模型,我们称之为maxout,它具有优化和利用Dropout实现模型平均的有益特征。 我们将此模型与dropout结合使用,以设置四个基准数据集的最新技术水平。
Review of dropout
- Dropout是一种可应用于确定性前馈架构的技术,该架构可预测出给定输入向量v。这些体系结构包含一系列隐藏层,Dropout训练一组模型,这些模型由包含v和h中变量子集的所有模型组成。使用相同的参数集θ来参数化分布族。其中是一个二元掩模,用于确定要包含在模型中的变量。在每个训练示例的演示中,我们通过跟踪日志的梯度来训练不同的子模型,用于不同的随机采样μ。Dropout训练类似于装袋,其中许多不同的模型在不同的数据子集上进行训练。Dropout训练不同于装袋,每个模型只训练一步,所有模型共享参数。 对于这个训练过程,就好像它正在训练一个整体而不是一个单一的模型,每个上升数据必须有一个很大的效果,这样它就可以使μ模型引起的子模型更好地适应当前输入v。
- 当合奏需要通过对所有子模型的预测进行平均来进行预测时,函数形式就变得很重要。 大多数先前关于装袋的工作平均值采用算术平均值,但是如何通过Dropout训练的指数级模型来实现这一点并不明显。幸运的是,一些模型族产生了廉价的几何平均值。当时,通过将的几何平均值重新归一化而定义的预测分布简单地给出了最大值。
Description of maxout
- maxout模型只是一个前馈架构,例如多层感知器或深度卷积神经网络,它使用一种新型的激活函数:maxout单元。给定输入(x可以是v,或者可以是隐藏层的状态),maxout隐藏层实现该功能:其中,和是学习参数。在卷积网络中,可以通过在k近似特征映射中获取最大值来构建maxout特征映射。当使用dropout进行训练时,我们在所有情况下乘以权重之前立即使用dropout mask执行元素乘法 - 我们不会将输入丢弃到max运算符。单个最大单位可以解释为对任意凸函数进行分段线性逼近。Maxout网络不仅学习隐藏单元之间的关系,还学习每个隐藏单元的激活功能。 有关其工作原理的图形描述,请参见图1。
- Maxout一条带是传统激活函数设计的许多主要支柱。它产生的表示完全不是稀疏的(见图2),尽管梯度是高度稀疏的,而辍学会在训练期间人为地稀疏有效的表示。虽然maxout可能会学习在一边或另一边饱和,但这是一个度量零事件(因此它几乎从未从上面限定)。虽然参数空间的显著比例对应于从下面被限定的函数,但maxout不被约束来学习被限定。几乎所有地方的maxout都是局部线性的,而许多流行的激活函数都有显著的曲率。考虑到所有这些与标准实践的不同,Maxout激活功能的工作可能看起来很令人惊讶,但我们发现它们非常健壮,并且易于与辍学者一起训练,并实现了出色的性能。
Maxout is a universal approximator
- 具有足够隐藏单位的标准MLP是通用逼近器。 同样,maxout网络是通用的近似值。 假设每个单独的maxout单元可能具有任意多个组件,我们表明只有两个隐藏单元的maxout模型可以任意接近v∈Rn的任何连续函数。 图3中示出了说明证明的基本思想的图。
Conclusion
- 我们已经提出了一种名为maxout的新激活函数,它特别适用于具有丢失的训练,并且我们已经证明了它是一种通用逼近定理。我们已经证明了经验证据表明,在深度模型中,辍学可以很好地逼近模型平均。我们已经证明maxout利用了这种模型的平均行为,因为近似值对于maxout单位比tanh单位更准确。
- 我们已经证明,优化在辍学环境中的表现与纯SGD情况相比非常不同。通过设计maxout梯度以避免陷阱,例如未能使用许多模型的滤波器,我们能够训练比使用整流器单元更深的网络。我们还表明,maxout传播梯度的变化,因为不同的选择丢失掩模到网络的最低层,确保模型中的每个参数都可以享受完整的输出,并且更加忠实地进行套袋训练。
- 我们针对不同基准测试任务的方法的最先进性能激发了进一步模型的设计,这些模型明确地旨在与模型平均的廉价近似相结合时表现良好。