Layer Norm 是 NLP 常用的归一化层,在ViT中被引入到CV领域。本文对Layer Norm和CV中常用的Batch Norm进行对比来展示这两种运算的相同与不同之处。
从 Pytorch 两者计算函数的注释可以看到,这两种归一化的公式是一样的:
y = x − E [ x ] V a r [ x ] + ϵ ∗ γ + β y = \frac{x - \mathrm{E}[x]}{ \sqrt{\mathrm{Var}[x] + \epsilon}} * \gamma + \beta y=Var[x]+ϵx−E[x]∗γ
【深度学习基础】Vision Transformer 中的 Layer Norm
于 2024-02-15 09:57:49 首次发布