论文链接https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
2010年AlexNet在ImageNet大赛上以远超第二名的成绩获得冠军,该文章的一些思想依然延用到现在。
一. AlexNet的特点:
-
ReLU Nonlinearity
在当时,sigmoid和tanh函数是最常用的激活函数。
s i g m o i d : F ( x ) = 1 1 + e x t a n h : F ( x ) = e x − e − x e x + e − x r e l u : F ( x ) = m a x ( 0 , x ) \\sigmoid :\quad F(x) = \frac{1}{1+e^x} \\ \\ tanh:\quad F(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}} \\ \\ relu:\quad F(x)=max(0,x) sigmoid:F(x)=1+ex1tanh:F(x)=ex+e−xex−e−xrelu:F(x)=max(0,x)
sigmoid和tanh在反向求导时,会容易出现梯度消失,无法完成深层网络的训练,而relu函数有效的缓解了梯度消失。 -
Local Response Normalization
AlexNet提出局部归一化有助于泛化,其公式如下:
b x , y i = a x , y i / ( k + α ∑ j = m a x ( 0 , i − n / 2 ) m i n ( N − 1 , i + n / 2 ) (