【深度学习基础】Vision Transformer 中的 Layer Norm

本文探讨了Layer Norm在计算机视觉领域,特别是Vision Transformer中的应用。对比了Layer Norm与Batch Norm,强调两者在计算均值和方差时的维度差异。在ViT中,Layer Norm采用NLP方式,而非通常在CV文献中描述的CV方式,这一细节常被忽视。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Layer Norm 是 NLP 常用的归一化层,在ViT中被引入到CV领域。本文对Layer Norm和CV中常用的Batch Norm进行对比来展示这两种运算的相同与不同之处。
从 Pytorch 两者计算函数的注释可以看到,这两种归一化的公式是一样的:
y = x − E [ x ] V a r [ x ] + ϵ ∗ γ + β y = \frac{x - \mathrm{E}[x]}{ \sqrt{\mathrm{Var}[x] + \epsilon}} * \gamma + \beta y=Var[x]+ϵ xE[x]γ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值