Normalization的总结框架

最新推荐文章于 2024-08-02 23:30:27 发布

旺旺棒棒冰

最新推荐文章于 2024-08-02 23:30:27 发布

阅读量90

点赞数 1

分类专栏：深度学习理论文章标签： Normalization 深度学习

原文链接：https://zhuanlan.zhihu.com/p/33173246

版权

深度学习理论专栏收录该内容

28 篇文章 1 订阅

订阅专栏

转自知乎详解深度学习中的Normalization，BN/LN/WN，仅供自己学习记录，如有侵权，请联系删除

通用公式：

$h=f\left(\mathbf{g} \cdot \frac{\mathbf{x}-\mu}{\sigma}+\mathbf{b}\right)$

BN

$\mu=\frac{1}{M} \sum x_{i}$

$\sigma=\sqrt{\frac{1}{M} \sum\left(x_{i}-\mu_{i}\right)^{2}+\epsilon}$

其中， $M$ 是batch大小， ${g}$ 和 ${b}$ 是可训练的参数初始化为1和0。

BN比较适用的场景是：

每个 mini-batch 比较大，数据分布比较接近。在进行训练之前，要做好充分的 shuffle. 否则效果会差很多。

缺点在于：

如果每个 mini-batch的原始分布差别很大，那么不同 mini-batch 的数据将会进行不一样的数据变换，这就增加了模型训练的难度。
不适用于动态的网络结构和 RNN 网络

详情见 https://blog.csdn.net/ltochange/article/details/119871517

LN

$\mu=\sum_{i} x_{i}$

$\sigma=\sqrt{\sum_{i}\left(x_{i}-\mu\right)^{2}+\epsilon}$

其中, $x_{i}$ 枚举了该层所有的输入神经元。对应到标准公式中，四大参数 $\mu$ 和 $\sigma$ , ${g}$ 和 ${b}$ 均为标量（BN中是向量），所有输入共享一个规范化变换。

优点：

LN 针对单个训练样本进行，不依赖于其他数据，因此可以避免 BN 中受 mini-batch 数据分布影响的问题，可以用于小mini-batch场景、动态网络场景和 RNN，特别是自然语言处理领域。
LN 不需要保存 mini-batch 的均值和方差，节省了额外的存储空间。

缺点：

LN 对于一整层的神经元训练得到同一个转换

所有的输入都在同一个区间范围内。如果不同输入特征不属于相似的类别（比如颜色和大小），那么 LN 的处理可能会降低模型的表达能力。

旺旺棒棒冰

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Normalization的总结框架

转自知乎详解深度学习中的Normalization，BN/LN/WN，仅供自己学习记录，如有侵权，请联系删除通用公式：h=f(g⋅x−μσ+b)h=f\left(\mathbf{g} \cdot \frac{\mathbf{x}-\mu}{\sigma}+\mathbf{b}\right)h=f(g⋅σx−μ+b)BNμ=1M∑xi\mu=\frac{1}{M} \sum x_{i} μ=M1∑xiσ=1M∑(xi−μi)2+ϵ\sigma=\sqrt{\frac{1}{M} \
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。