Layer Normalization

最新推荐文章于 2024-07-19 16:50:04 发布

andeyeluguo

最新推荐文章于 2024-07-19 16:50:04 发布

阅读量916

点赞数 8

分类专栏： AI笔记文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/andeyeluguo/article/details/136125859

版权

AI笔记专栏收录该内容

38 篇文章 0 订阅

订阅专栏

Layer Normalization（层归一化）是一种常用的归一化技术，用于神经网络的每个层的输入进行归一化处理。其公式如下：

对于一个具有特征维度为 \(d\) 的输入 \(x = (x_1, x_2, ..., x_d)\)，Layer Normalization 的计算公式如下：

\[
\text{LayerNorm}(x) = \gamma \odot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta
\]

其中：
- \( \text{LayerNorm}(x) \) 表示对输入 \( x \) 进行 Layer Normalization 的结果。
- \(\gamma\) 和 \(\beta\) 是可学习的参数向量，维度均为 \(d\)。它们用于对归一化的结果进行缩放和平移，以便让网络自由地学习调整数据的均值和方差。
- \(\mu\) 是输入 \(x\) 在特征维度上的均值，计算方式为：\(\mu = \frac{1}{d} \sum_{i=1}^{d} x_i\)。
- \(\sigma\) 是输入 \(x\) 在特征维度上的标准差，计算方式为：\(\sigma = \sqrt{\frac{1}{d} \sum_{i=1}^{d} (x_i - \mu)^2}\)。
- \(\epsilon\) 是一个小的常数（例如，\(10^{-5}\)），用于避免除以零的情况。

Layer Normalization 的目标是对每个样本的特征维度进行归一化，使得每个维度上的均值为0，方差为1。这有助于减少不同样本之间的差异，提供更稳定的训练过程。

需要注意的是，Layer Normalization 是在特征维度上进行归一化，与 Batch Normalization（批归一化）不同，后者是在批次维度上进行归一化。因此，Layer Normalization 在处理序列数据等不适合使用批归一化的情况下，往往是一个更好的选择。

关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
Layer Normalization

\(\sigma\) 是输入 \(x\) 在特征维度上的标准差，计算方式为：\(\sigma = \sqrt{\frac{1}{d} \sum_{i=1}^{d} (x_i - \mu)^2}\)。- \(\gamma\) 和 \(\beta\) 是可学习的参数向量，维度均为 \(d\)。这有助于减少不同样本之间的差异，提供更稳定的训练过程。- \(\mu\) 是输入 \(x\) 在特征维度上的均值，计算方式为：\(\mu = \frac{1}{d} \sum_{i=1}^{d} x_i\)。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

andeyeluguo 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。