LayerNorm&BatchNorm

Double-E

已于 2023-08-23 23:24:15 修改

阅读量104

点赞数

文章标签：深度学习

于 2023-08-23 23:07:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38257276/article/details/132462034

版权

公式：
pytorch官网
在这里插入图片描述
官方api：

公式实现：
在这里插入图片描述
两者是一一致的。
当然处理的维度是可以调整的，官方给的图像例子是：

>>> N, C, H, W = 20, 5, 10, 10
>>> input = torch.randn(N, C, H, W)
>>> # Normalize over the last three dimensions (i.e. the channel and spatial dimensions)
>>> # as shown in the image below
>>> layer_norm = nn.LayerNorm([C, H, W])
>>> output = layer_norm(input)

说明layernorm是按channel的维度做normalize，NLP中的假设有10个单词，每个单词用128维度表示，tensor.shape=[10,128],然后做layer norm，对于transfomer架构的图像任务，一般会变成[token，c]的表示，token就是将一张图分成多少个小的patch,c=patch_hpatch_w3，然后使用layernorm。结合上面的输出即可意会。

batchnorm:

在这里插入图片描述
如果是图像(batchnorm2d)的话，每一个channel对应一组公式的y,b:
初始化的参数是通道数量。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LayerNorm&BatchNorm

layernorm & batchnorm理解
复制链接

扫一扫

Double-E CSDN认证博客专家 CSDN认证企业博客

码龄7年

10: 原创

106万+: 周排名

28万+: 总排名

1万+: 访问

: 等级

153: 积分

5: 粉丝

19: 获赞

6: 评论

58: 收藏

私信

关注

热门文章

最新评论

dense_flow复现
ONESHOT-: 如何将flow_x和flow_y合并成一张光流图呢
Screen简单使用
CSDN-Ada助手: 恭喜您写了第10篇博客！标题为“Screen简单使用”，非常引人注目。您的持续创作令人钦佩，这一系列的博客对于屏幕的简单使用一定会帮助到许多读者。在下一步的创作中，或许您可以考虑进一步探索Screen的高级功能或者与其他相关工具的结合使用。您的经验与见解对于我们这些想要更深入了解Screen的读者来说将是非常宝贵的。期待您的下一篇博客，谦虚地期待着能从中获得更多的知识和启发！
自动驾驶统一框架UniAD
CSDN-Ada助手: 恭喜您写了一篇关于自动驾驶统一框架UniAD的博客，对这一领域的研究和探索做出了贡献。在您的文章中，我看到了对技术的深入理解和对未来的展望，这让我非常受益。作为下一步的创作建议，我认为您可以结合实践经验，分享一些UniAD在实际场景中的应用案例，这将更加有助于读者理解和应用该框架。再次感谢您的分享，期待您更多的优秀作品。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。
预训练模型使用
Double-E: 那就按照常规那样直接把权重加载就行
预训练模型使用
像啦啦啦同志学习: 如果想使用预训练的参数，不冻结任何层重头训练，怎么写代码呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。