论文笔记--Layer Normalization
1. 文章简介
- 标题:Layer Normalization
- 作者:Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton
- 日期:2016
- 期刊:arxiv, preprint
2. 文章导读
2.1 概括
文章给出了一种神经网络的层内正则化方法Layer Normalization(LN),突破了Batch Normalization(BN)在RNN等网络形态中的效率低下和难以处理长度不一的句子等问题。文章在CV、NLP领域进行了大量实验,结果表明,Base+LN在除了CNN之外的神经网络架构上表现超过Baseline或Base+BN,收敛更快更稳定。
2.2 Layer Normalization
不进行正则化时,神经网络的第 l + 1 l+1 l+1层的隐藏层状态如下式
h ( l + 1 ) = f ( w ( l ) T h ( l ) ) ! = f ( a ( l ) ) h^{(l+1)} = f(w^{(l)^T} h^{(l)}) != f(a^{(l)}) h(l+1)=f(w(l)Th(l))!=f(a(l)),现在按照如下方式进行正则化: a ( l + 1 ) ′ = f ( g σ ( l ) ( a ( l ) − μ ( l ) ) + b ) \begin{equation}a^{(l+1)'} = f(\frac {g}{ \sigma^{(l)}} (a^{(l)} - \mu^{(l)} ) + b )\end{equation} a(l+1)′=f(