Batch Normalization 和 Group Normalization

最新推荐文章于 2022-09-16 14:29:32 发布

码农10001

最新推荐文章于 2022-09-16 14:29:32 发布

阅读量1.6k

点赞数

文章标签：深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/caixukun110/article/details/124321034

版权

Batch Normalization

可以理解为是一种数据预处理技术，使得每层网络的输入都服从（0，1）0均值，1方差分布，如果不进行BN，那么每次输入的数据分布不一致，网络训练精度自然也受影响。前向公式：

神经网络在训练的时候随着网络层数的加深,激活函数的输入值的整体分布逐渐往激活函数的取值区间上下限靠近,从而导致在反向传播时低层的神经网络的梯度消失。而BatchNormalization的作用是通过规范化的手段,将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,避免梯度消失的问题。

Batch normalization 的 batch 是批数据, 把数据分成小批小批进行 stochastic gradient descent. 而且在每批数据进行前向传递 forward propagation 的时候, 对每一层都进行 normalization 的处理。

Group Normalization

Group Normalization是何恺明大神的又一力作，是针对Batch Normalization（BN）在batch size较小时错误率较高而提出的改进算法，因为BN层的计算结果依赖当前batch的数据，当batch size较小时（比如2、4这样），该batch数据的均值和方差的代表性较差，因此对最后的结果影响也较大。

具体解释可参考这篇文章：https://blog.csdn.net/u014380165/article/details/79810040?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165052370316780357297755%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=165052370316780357297755&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-1-79810040.142^v9^pc_search_result_cache,157^v4^control&utm_term=group+normalization&spm=1018.2226.3001.4187https://blog.csdn.net/u014380165/article/details/79810040?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165052370316780357297755%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=165052370316780357297755&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-1-79810040.142^v9^pc_search_result_cache,157^v4^control&utm_term=group+normalization&spm=1018.2226.3001.4187

总的来说，BN是在 batch这个维度上进行归一化，GN是计算channel方向每个group的均值方差。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

码农10001 CSDN认证博客专家 CSDN认证企业博客

码龄5年

5: 原创

130万+: 周排名

109万+: 总排名

1万+: 访问

: 等级

58: 积分

2: 粉丝

12: 获赞

3: 评论

50: 收藏

私信

关注

热门文章

最新评论

HRNet网络结构
码农10001: 论文原文确实是说做transition 的时候，每种分辨的特征图都互相交换信息，但是看源码，transition确实只用了一个分支的特征图
HRNet网络结构
nmmzhz: 感觉是全网唯一说明了产生新的branch时，仅用了make_stage融合后的最后一层branch做transition的文章。其他的文章好像根本就没有提这个。。这点导致代码实现与论文网络图有点差异，所以看源码和图有点对不上
HRNet网络结构
陈嘿萌: 人生贵在学习与总结，为你点赞！👍

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。