本系列文章由 @yhl_leo 出品,转载请注明出处。
文章链接: http://blog.csdn.net/yhl_leo/article/details/51736830
Noisy Activation Functions是ICML 2016年新发表的一篇关于激活函数的论文,其中对以往的激活函数进行了深入的分析,并提出了训练过程中添加噪声的新方法,效果不错,觉得很有意义,目测会在今后的深度学习领域产生比较大的影响,因此将其原论文翻译,并略作注解(计划分两篇博客来写,本文涵盖从摘要到第三节的内容),希望能够帮助大家理解,如有纰漏,请指正。
Paper URL: http://arxiv.org/pdf/1603.00391v3.pdf
Abstract
神经网络中使用的常见的非线性激活函数(Nonlinear Activation Functions,同样也可以简称为 NAF),由于激活函数本身的饱和(Saturation)现象(饱和现象,后文有讲解是指训练收敛接近目标时,导数趋向于0的现象,这对于收敛是不利的,也就是越接近目标,如果学习率固定的话,每次迭代更新的结果与前一次迭代结果的差异性就会越小),会导致训练困难,这种情形中可能会使得一些 vanilla-SGD (只使用一阶梯度)不敏感的相关性损失。论文提出注入合适的噪音,从而让梯度更加显著(相对于不使用噪声的激活函数可能会出现零梯度的情形)。引入大量噪声会支配无噪声梯度(意思是引入噪声,改变了无噪声情形下的梯度大小以及方向),使得随机梯度下降(Stochastic Gradient Descent, SGD)算法在收敛过程中可以进行更多的尝试。我们通过在记过函数的不确定部分(problematic parts)添加噪声(在后文可以看到,噪声添加在激活函数两端导数为零的部分,这部分可能被称为 problematic parts),尝试让优化过程探索退化/饱和与激活函数良好部分(良好部分应该是与不确定部分互补的部分吧)之间的边界。当噪声的数量呈退火下降,会使得优化硬目标函数更加容易,我们建立了模拟退火关系。通过实验发现,用含噪声变量的激活函数替代传统的饱和激活函数,能够在很多情形下帮助训练,在不同数据集和任务中,产生非常好的结果,尤其是当训练看似非常困难的时候,例如,当需要通过课程学习(Curriculum Learning, Bengio et al., 2009)获得好的结果时。