【深度学习基础】Vision Transformer 中的 Layer Norm

wangh09

已于 2024-02-15 10:12:09 修改

阅读量1.5k

点赞数 23

分类专栏：深度学习基础文章标签：深度学习人工智能计算机视觉

于 2024-02-15 09:57:49 首次发布

本文链接：https://blog.csdn.net/wangh09/article/details/136118297

版权

本文探讨了Layer Norm在计算机视觉领域，特别是Vision Transformer中的应用。对比了Layer Norm与Batch Norm，强调两者在计算均值和方差时的维度差异。在ViT中，Layer Norm采用NLP方式，而非通常在CV文献中描述的CV方式，这一细节常被忽视。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Layer Norm 是 NLP 常用的归一化层，在ViT中被引入到CV领域。本文对Layer Norm和CV中常用的Batch Norm进行对比来展示这两种运算的相同与不同之处。
从 Pytorch 两者计算函数的注释可以看到，这两种归一化的公式是一样的：
$\frac{x - \mathrm{E}[x]}{ \sqrt{\mathrm{Var}[x] + \epsilon}} * \gamma + \beta$