transformer中layer normalization详解

最新推荐文章于 2024-08-13 16:43:38 发布

会写代码的孙悟空

最新推荐文章于 2024-08-13 16:43:38 发布

阅读量2.4k

点赞数 1

分类专栏： Transformer deep learning 文章标签： transformer 深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/artistkeepmonkey/article/details/123551184

版权

deep learning 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

4 篇文章 2 订阅

订阅专栏

在这里插入图片描述
2015年batch normalization提出 2016年的layer normalization

在这里插入图片描述
这是在论文中截的图，箭头指向的青色线代表加了layer normalization的模型，收敛速度最快。
layer normalization第二个优点，batch数据的多个样本可以是长度不同的，
input_data_shape=B * C * dim 虽然每个样本通道维度都是C，但是如果有的样本没有C这么长，是经过padding技术增加成统一长度的呢？
具体来讲，多个句子作为一个batch，每个句子的长度是不一样的，但是会取一个句子长度最大值。
这个时候batch normalization就会带来问题。

transformer最初就是作为一个sequence to sequence模型被提出的，而一个sequence长度很可能是不确定的，layer normalization相对来说就是一个合适的归一化方法。

layer normalization作用是啥？
让中间层数据分布稳定，便于训练。

会写代码的孙悟空

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

会写代码的孙悟空 赠人玫瑰手有余香

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。