RMSNorm 和 LayerNorm 笔记

最新推荐文章于 2024-08-21 00:07:22 发布

kjzd123

最新推荐文章于 2024-08-21 00:07:22 发布

阅读量201

点赞数 5

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kjzd123/article/details/141289534

版权

RMSNorm 和 LayerNorm 笔记

1. LayerNorm（Layer Normalization）

LayerNorm 是一种归一化方法，广泛应用于深度学习模型中，尤其是在自然语言处理（NLP）和 Transformer 架构中。它通过计算输入向量的均值和标准差，对输入进行归一化处理，从而提高模型的训练稳定性和收敛速度。

在这里插入图片描述

优点：

提高模型的训练稳定性和收敛速度。
在处理不同长度的输入序列时表现良好。

2. RMSNorm（Root Mean Square Normalization）

RMSNorm 是一种简化的归一化方法，通过计算输入向量的均方根（RMS）进行归一化，避免了计算均值和标准差，从而简化了计算过程。

在这里插入图片描述

优点：

计算简单，不需要计算均值和标准差。
数值稳定性高，特别是在处理较长序列或较深网络时。
实验效果良好，在某些任务中与 LayerNorm 相当甚至更好。
参数量相同，且实现简化。

总结

LayerNorm 通过计算均值和标准差对输入进行归一化，适用于各种深度学习模型，特别是在处理不同长度的输入序列时表现良好。
RMSNorm 通过计算均方根进行归一化，避免了均值和标准差的计算，具有计算简单、数值稳定性高等优点，在某些任务中表现更好。

选择使用哪种归一化方法应根据具体的任务需求和实验结果来决定。

关注

5
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RMSNorm 和 LayerNorm 笔记

LayerNorm通过计算均值和标准差对输入进行归一化，适用于各种深度学习模型，特别是在处理不同长度的输入序列时表现良好。RMSNorm通过计算均方根进行归一化，避免了均值和标准差的计算，具有计算简单、数值稳定性高等优点，在某些任务中表现更好。选择使用哪种归一化方法应根据具体的任务需求和实验结果来决定。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。