ICML 2013 《Maxout Networks》
Ian J. Goodfellow | David Warde-Farley | Mehdi Mirza | Aaron Courville | Yoshua Bengio
paper link
1 概览
这篇论文总结起来就是
一个公式:
h
i
(
x
)
=
max
j
∈
[
1
,
k
]
z
i
j
h_{i}(x)=\max _{j \in[1, k]} z_{i j}
hi(x)=j∈[1,k]maxzij
一行代码:
output = K.max(K.dot(X, self.W) + self.b, axis=1)
-
maxout可以看做是提出了一种新的非线性激活层。
-
相比于普通方法:
h i ( x ) = f ( z i ) h_{i}(x)=f(z_{i}) hi(x)=f(zi)
其中 f f f是各种激活函数。maxout方法的参数量是它的 k k k倍。
2 细节
h
i
(
x
)
=
max
j
∈
[
1
,
k
]
z
i
j
h_{i}(x)=\max _{j \in[1, k]} z_{i j}
hi(x)=j∈[1,k]maxzij
其中
z
i
j
=
x
T
W
…
i
j
+
b
i
j
,
z_{i j}=x^{T} W_{\ldots i j}+b_{i j},
zij=xTW…ij+bij,
权重
W
∈
R
d
×
m
×
k
W \in \mathbb{R}^{d \times m \times k}
W∈Rd×m×k
这个权重向量是一个
(
d
,
m
,
k
)
(d,m,k)
(d,m,k)三维向量,而普通的全连接层中的权重向量是
(
d
,
m
)
(d,m)
(d,m)二维的。
这里多的一个维度,多了一个可自定义参数
k
k
k,相当于在这一层把普通
z
=
x
T
w
z=x^Tw
z=xTw做了
k
k
k次,取其最大值输出,因此参数量是原本的
k
k
k倍。
3 maxout 特点
- 由于权重参数 w w w是在不断学习更新的,因此maxout也不像以前的激活函数那样固定,而是一个可学习的激活函数。
- maxout可以拟合任意凸函数。maxout是一个分段线性函数,而已被证明的是任何一个凸函数,都可以由线性分段函数逼近近似。
- maxout放弃了传统激活函数的设计,它产生的表示不再是稀疏的,但是它的梯度是稀疏的,且dropout可以将它稀疏化。
4 实验
在数据集MNIST, CIFAR-10, CIFAR100, 和 SVHN上取得了state of the art的成绩。