Maxout 论文笔记

最新推荐文章于 2021-10-06 12:21:53 发布

黑暗星球

最新推荐文章于 2021-10-06 12:21:53 发布

阅读量4.5k

点赞数 2

分类专栏：论文笔记图像分类文章标签： Maxout

本文链接：https://blog.csdn.net/u014061630/article/details/80259567

版权

本文深入探讨了Maxout模型，这是一种新型激活函数，类似dropout的集成技术。Maxout通过多个仿射变换取最大值实现通用函数拟合。在TensorFlow中，有直接的Maxout激活函数实现。同时，文章提到了Maxout与dropout的结合使用，以及Maxout在MNIST数据集上的应用实例。

摘要由CSDN通过智能技术生成

Maxout：Maxout networks

Maxout模型实际上是一种新型的激活函数。

maxout的思想其实和dropout有点像，都是多个不同训练模型的集成技术。

1.Dropout
dropout由Hinton提出的一个网络正则技术。dropout通过对共享参数的fc层的一些神经元固定概率的随机置零，来集成多个模型，并且对多个模型的预测进行了平均。dropout是一个通用技术，可以用于任何网络，但是dropout的模型平均能力并没有被证明。使用了dropout的训练过程和一般的SGD方法完全不同。dropout在更新时使用更大的步长最有效，因为这样可以在不同的训练子集上对不同的模型有明显的影响来使得目标函数有持续的波动性，理想情况下整个训练过程就类似于使用bagging来训练集成的模型（带有参数共享的约束）。而一般的SGD更新时会使用更小的步长，来使得目标函数平滑的下降。对于深度网络模型，dropout只能作为模型平均的一种近似，显式的设计模型来最小化这种近似误差也可以提高dropout的性能[参考文献]。

dropout训练的集成模型中，所有模型都只包括部分输入和部分隐层参数。对每一个训练样本，我们都会训练一个包括不同隐层参数的子模型。dropout与bagging的相同点是不同的模型使用不同数据子集，不同点是dropout的每个模型都只训练一次且所有模型共享参数。这一段有争议

对于预测时如何平均所有子模型的问题，bagging一般使用的是算数平均，而对dropout产生的指数多个子模型则并非显而易见。但是如果模型只有一层，则最终的预测分布就是简单的指数多个子模型的算数平均。这个结果只能用在单层模型中，如果是深层模型，则dropout产生的指数个模型的集成更复杂，将由单层的算数平均转为几何平均。这一段有争议

2.Maxout
使用maxout的默认先验：样本集是凸集可分的
Maxout其实是一种新的激活函数。在前馈式神经网络中，Maxout的输出取该层的多个fc的同一位置的神经元的最大值；卷积中，Maxout的输出取多个feature map同一位置的最大值。这句话需要好好理解

我们知道，多层感知器（MLP）是一种通用的函数拟合器，也就是说它可以拟合任意复杂的函数，只不过有些函数使用MLP来训练比较麻烦而已。

而Maxout模型恰好是一种基于MLP的激活函数，因为每个Maxout模型内部可以包含任意的仿射变换，这就导致了Maxout模型也是一个通用的函数拟合器。

例如：下图是一个包含4个神经元的Maxout网络。

从输入层到Maxout的输出，是经过了三个仿射变换，我们可以认为这三个仿射变换就是三个特征提取器，此变换中没有任何非线性激活函数，完全是一个线性变换，最终由这三个变换取最大值得到Maxout的4个输出神经元。

根据上图，我们可以看到，假如输入变量的维度是2，那么Maxout中的权重变量就是4维，因为多余的两个维度分别是Maxout自身神经元的个数以及特征提取器的个数。

我们再回到前面所说的Maxout的通用拟合的功能，下图是原始论文中出现的一张图，其目的是告诉我们无论是ReLU函数，还是V型函数还是二次型函数，我们都可以通过构造多个仿射变换来对其进行逼近，并且在每个区间内取其最大值即可。这不就是Maxout的功能吗？虽然这里只给出了二维函数的逼近示意图，但是实际上Maxout可以拟合任意的凸函数。

maxout激活函数的数学描述： $h_{i}(x)=\max\limits_{j\in{[1,k]}}{z_{ij}}$
在MLP中： $z_{ij}=x^{T}W_{...ij}+b_{ij}$ 其中 $W\in{\mathbb{R}^{d\times{m}\times{k}}}$