手推公式之“层归一化”梯度

每天给你送来NLP技术干货!


作者 | godweiyang

出品 | 公众号:算法码上来(ID:GodNLP)

- BEGIN -

今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。

前向传播

假设待归一化的维向量为,均值和标准差分别是和,LayerNorm的参数是和,那么层归一化后的输出为:

这里的极小量是为了防止标准差为0导致溢出。为了简单起见,我们不加上这一项,原公式也就变成了:

反向传播

假设损失函数对输出的梯度是,那么这里需要求三个梯度:、和。

令,那么原公式就变成了:

两个参数的梯度非常简单:

对输入的梯度等于:

推导过程

对输入的梯度可以写成:

这里只需要计算最后一项就行了:

402 Payment Required

其中只有当的时候才会等于1,否则都等于0。这里只需要求出均值和标准差对的梯度就行了。直接给出结论,证明比较简单,放在了文末:

402 Payment Required

代入可以得到:

最后带入梯度中可以得到:

402 Payment Required

均值和标准差的梯度

均值的梯度为:

标准差的计算公式可以写成,所以梯度为:

- END -

最近文章

EMNLP 2022 和 COLING 2022,投哪个会议比较好?

一种全新易用的基于Word-Word关系的NER统一模型,刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值