Batch Normalization和Layer Normalization

最新推荐文章于 2024-07-30 12:10:19 发布

guohui_0907

最新推荐文章于 2024-07-30 12:10:19 发布

阅读量663

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guohui_0907/article/details/97646973

版权

为什么需要归一化

各个特征之间的量纲不同，会导致在计算loss时，会过度依赖于量纲较大的那些特征，而忽略量纲较小的特征，导致梯度下降时走“之字形”路线。

1 对比

BN是在batch上，对N、H、W做归一化，而保留通道 C 的维度。BN对较小的batch size效果不好。BN适用于固定深度的前向神经网络，如CNN，不适用于RNN
LN在通道方向上，对C、H、W归一化，主要对RNN效果明显；

如果把特征图[公式]比喻成一摞书，这摞书总共有 N 本，每本有 C 页，每页有 H 行，每行有W 个字符。

BN 求均值时，相当于把这些书按页码一一对应地加起来（例如第1本书第36页，第2本书第36页…），再除以每个页码下的字符总数：N×H×W，因此可以把 BN 看成求“平均书”的操作（注意这个“平均书”每页只有一个字），求标准差时也是同理。
LN 求均值时，相当于把每一本书的所有字加起来，再除以这本书的字符总数：C×H×W，即求整本书的“平均字”，求标准差时也是同理。

2 Batch Normalization

2.1 why BN?

（1）在深度神经网络训练的过程中，通常以输入网络的每一个mini-batch进行训练，这样每个batch具有不同的分布，使模型训练起来特别困难。

（2）Internal Covariate Shift (ICS) 问题：当底层网络中参数发生微弱变化时，由于每一层中的线性变换与非线性激活映射，这些微弱变化随着网络层数的加深而被放大（类似蝴蝶效应）；另一方面，参数的变化导致每一层的输入分布会发生改变，进而上层的网络需要不停地去适应这些分布变化，使得我们的模型训练变得困难，网络的训练过程容易陷入梯度饱和区，减缓网络收敛速度。

2.2 BN的主要思想

针对每个神经元，使数据在进入激活函数之前，沿着通道计算每个batch的均值、方差，‘强迫’数据保持均值为0，方差为1的正态分布，避免发生梯度消失。具体来说，就是把第1个样本的第1个通道，加上第2个样本第1个通道 … 加上第 N 个样本第1个通道，求平均，得到通道 1 的均值（注意是除以 N×H×W 而不是单纯除以 N，最后得到的是一个代表这个 batch 第1个通道平均值的数字，而不是一个 H×W 的矩阵）。求通道 1 的方差也是同理。对所有通道都施加一遍这个操作，就得到了所有通道的均值和方差。

2.3 BN的算法过程

BN的使用位置在全连接层或者卷积层之后，激活函数之前。

沿着通道计算每个batch的均值 $\mu$
沿着通道计算每个batch的方差 $\sigma^2$
做归一化
加入缩放和平移变量

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

guohui_0907 CSDN认证博客专家 CSDN认证企业博客

码龄9年

38: 原创

43万+: 周排名

227万+: 总排名

3万+: 访问

: 等级

667: 积分

4: 粉丝

15: 获赞

5: 评论

81: 收藏

私信

关注

分类专栏

最新评论

fasttext介绍
爱学习的西西: 博主您好，单词本身<apples>忘记了吧
LSTM为什么可以缓解梯度消失
违规昵称1433223: 偏导数根本不是1你能不能别误导人
LSTM为什么可以缓解梯度消失
ytyds4100: 真的说到点上了，特别是RNN梯度消失的含义与其他网络梯度消失含义的区别，赞赞赞
论文笔记：基于外部知识的会话模型A Knowledge-Grounded Neural Conversation Model
guohui_0907 回复小南瓜^o^: 并没有，原文中我记得是没有公开代码。
论文笔记：基于外部知识的会话模型A Knowledge-Grounded Neural Conversation Model
小南瓜^o^: 博主你好，请问你有没有这篇论文的代码

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。