nn.LayerNorm()

在迪打螺丝的Bing

已于 2024-09-24 09:37:07 修改

阅读量376

点赞数 5

文章标签： python 开发语言

于 2024-09-24 09:34:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xiang_bin_bin/article/details/142479223

版权

#哪个编程工具让你的工作效率翻倍？#

因为太多的博客并没有深入理解,本文是自己学习后加入自己深入理解的总结记录，方便自己以后查看。

nn.LayerNorm()的计算原理详解,如果有用的话，请记得点赞+关注哦。

学习前言

一起来学习nn.LayerNorm()的原理

nn.LayerNorm(normalized_shape, eps=1e-05, elementwise_affine=True, device=None, dtype=None)

normalized_shape：归一化的维度，int（最后一维）list（list里面的维度）
eps：加在方差上的数字，避免分母为0
elementwise_affine：bool，True的话会有一个默认的affine参数

layernorm对单个batch进行归一化，在每个样本的每个特征维度上进行归一化，使得每个特征的均值为0，方差为1，从而有助于提高模型的训练效果和泛化能力。

与 Batch Normalization （批归一化）既有相似之处又有不同：从公式上看，都是减去均值除以标准差，也存在两个可训练的参数 gamma 和 beta

但是，BN 是对一个 batch 数据的每个 channel 进行 Norm 处理，LN是对单个数据的指定维度进行Norm处理，与batch无关。而且在BN训练时需要累计moving_mean和moving_var两个变量，LN不需要累计

所以说，，LayerNorm 是在每个样本的特征维度上进行归一化，而不是在批次维度上。这意味着在LayerNorm中，每个样本都有自己的均值和方差

优点：

不依赖于批次大小，因此在训练和推理阶段都可以使用
在处理小批次数据时，相比于BN批归一化，LayerNorm 更稳定
由于每个样本都有自己的均值和方差，可以更好地适应不同样本之间的差异

在迪打螺丝的Bing

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

在迪打螺丝的Bing CSDN认证博客专家 CSDN认证企业博客

码龄5年

27: 原创

29万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

438: 积分

95: 粉丝

162: 获赞

8: 评论

110: 收藏

私信

关注

热门文章

最新评论

Windows Forms图形界面开发
啦啦啦八月八: 相当有用，学习了
pickle.dump与troch.dump的异同点
CSDN-Ada助手: 恭喜用户发布了第13篇博客！标题“pickle.dump与troch.dump的异同点”非常吸引人，看来您对这两者有深入的了解。希望您能继续保持创作的热情和努力，为读者带来更多有价值的内容。或许您可以考虑深入探讨它们的应用场景，或者结合实际案例进行详细分析，这样读者能够更好地理解和应用这些知识。期待您的下一篇作品！继续加油！🌟📝
C#使用Pythonnet调用pthon程序之多进程创建方法及依赖问题处理
CSDN-Ada助手: 恭喜你写了第11篇博客！看了你的文章对C#使用Pythonnet调用python程序的多进程创建方法及依赖问题处理有了更深入的了解，写得很详细。不过我觉得下一步可以尝试结合实际案例来展示这些方法的应用，或者分享一些关于这方面的实践经验，让读者更容易理解和应用。希望你能继续分享更多有价值的内容，期待你的下一篇文章！
DeeplabV3+解码器学习和优化
CSDN-Ada助手: 恭喜您发布了第10篇博客！看到您对DeeplabV3+解码器的学习和优化，我感到非常兴奋。您对这个话题的深入探讨让我受益匪浅。在下一步的创作中，我建议您可以尝试结合实际案例，分享一些解码器优化的实际应用经验，或者对比不同优化方法的效果。这样可以让读者更直观地了解到您的研究成果，并且对您的博客内容更加感兴趣。期待您的更多精彩内容！
F.interplate()
CSDN-Ada助手: 恭喜您写了第9篇博客！标题"F.interplate()"引起了我的兴趣。我很高兴看到您不断努力创作，并分享您的知识和经验。在接下来的创作中，我建议您可以考虑深入探讨F.interplate()的具体用法和实际应用场景，或者与其他相关函数进行比较和对比分析。期待您继续带领我们探索更多有趣的主题！加油！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。