论文笔记--Layer Normalization

文章介绍了LayerNormalization(LN),一种适用于神经网络的层内正则化方法,尤其在RNN中优于BatchNormalization(BN)。LN解决了BN在处理变长序列时的效率问题,并在非CNN架构上展现优秀性能。文章通过对比BN和WeightNormalization(WN),指出LN的权重伸缩不变性和数据伸缩不变性,以及在在线预测和避免梯度问题上的优势。
摘要由CSDN通过智能技术生成

1. 文章简介

  • 标题:Layer Normalization
  • 作者:Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton
  • 日期:2016
  • 期刊:arxiv, preprint

2. 文章导读

2.1 概括

  文章给出了一种神经网络的层内正则化方法Layer Normalization(LN),突破了Batch Normalization(BN)在RNN等网络形态中的效率低下和难以处理长度不一的句子等问题。文章在CV、NLP领域进行了大量实验,结果表明,Base+LN在除了CNN之外的神经网络架构上表现超过Baseline或Base+BN,收敛更快更稳定。

2.2 Layer Normalization

   不进行正则化时,神经网络的第 l + 1 l+1 l+1层的隐藏层状态如下式
h ( l + 1 ) = f ( w ( l ) T h ( l ) ) ! = f ( a ( l ) ) h^{(l+1)} = f(w^{(l)^T} h^{(l)}) != f(a^{(l)}) h(l+1)=f(w(l)Th(l))!=f(a(l)),现在按照如下方式进行正则化: a ( l + 1 ) ′ = f ( g σ ( l ) ( a ( l ) − μ ( l ) ) + b ) \begin{equation}a^{(l+1)'} = f(\frac {g}{ \sigma^{(l)}} (a^{(l)} - \mu^{(l)} ) + b )\end{equation} a(l+1)=f(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值