Maxout Networks - 论文阅读

ICML 2013 《Maxout Networks》
Ian J. Goodfellow | David Warde-Farley | Mehdi Mirza | Aaron Courville | Yoshua Bengio
paper link

1 概览
这篇论文总结起来就是

一个公式:
h i ( x ) = max ⁡ j ∈ [ 1 , k ] z i j h_{i}(x)=\max _{j \in[1, k]} z_{i j} hi(x)=j[1,k]maxzij

一行代码:

output = K.max(K.dot(X, self.W) + self.b, axis=1)
  • maxout可以看做是提出了一种新的非线性激活层。

  • 相比于普通方法:
    h i ( x ) = f ( z i ) h_{i}(x)=f(z_{i}) hi(x)=f(zi)
    其中 f f f是各种激活函数。maxout方法的参数量是它的 k k k倍。

2 细节
h i ( x ) = max ⁡ j ∈ [ 1 , k ] z i j h_{i}(x)=\max _{j \in[1, k]} z_{i j} hi(x)=j[1,k]maxzij
其中
z i j = x T W … i j + b i j , z_{i j}=x^{T} W_{\ldots i j}+b_{i j}, zij=xTWij+bij,
权重
W ∈ R d × m × k W \in \mathbb{R}^{d \times m \times k} WRd×m×k
这个权重向量是一个 ( d , m , k ) (d,m,k) (d,m,k)三维向量,而普通的全连接层中的权重向量是 ( d , m ) (d,m) (d,m)二维的。
这里多的一个维度,多了一个可自定义参数 k k k,相当于在这一层把普通 z = x T w z=x^Tw z=xTw做了 k k k次,取其最大值输出,因此参数量是原本的 k k k倍。

3 maxout 特点

  • 由于权重参数 w w w是在不断学习更新的,因此maxout也不像以前的激活函数那样固定,而是一个可学习的激活函数。
  • maxout可以拟合任意凸函数。maxout是一个分段线性函数,而已被证明的是任何一个凸函数,都可以由线性分段函数逼近近似。
  • maxout放弃了传统激活函数的设计,它产生的表示不再是稀疏的,但是它的梯度是稀疏的,且dropout可以将它稀疏化。

4 实验
在数据集MNIST, CIFAR-10, CIFAR100, 和 SVHN上取得了state of the art的成绩。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值