Batch Normalization 论文阅读

最新推荐文章于 2024-06-07 23:53:23 发布

lllily

最新推荐文章于 2024-06-07 23:53:23 发布

阅读量4k

点赞数 2

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40087578/article/details/87931574

版权

论文：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift参考：https://www.cnblogs.com/guoyaohua/p/8724433.htmlBatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。BN 本质...

摘要由CSDN通过智能技术生成

论文：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

参考：https://www.cnblogs.com/guoyaohua/p/8724433.html

BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。

BN 本质上是在解决：为什么随着深度神经网络加深，训练起来越困难，收敛越慢（是因为整体分布逐渐往非线性函数的取值区间的上下限两端靠近，导致反向传播时低层神经网络的梯度消失）

BN 就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，把越来越偏的分布强制拉回比较标准的分布，这样使得激活函数值落在非线性函数对输入比较敏感的区域，让梯度加大，避免产生梯度消失问题，而且梯度大意味着学习收敛速度快。所以BN层要在激活函数前，值x=wu+b后

很多论文都是在解决这个问题：例如relu 激活函数的提出来代替sigmoid

BatchNorm是基于Mini-Batch SGD的,batchsize 一定要大于1，但是sgd 超参数调节起来麻烦（学习率要变）bn可以解决这个问题

BN思想来源：之前的研究表明在图像处理中对输入图像进行白化操作（对输入数据分布变换到0均值，单位方差的正态分布）那么神经网络会较快收敛。对于深度神经网络来说，某个

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
4
评论
Batch Normalization 论文阅读

论文：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift参考：https://www.cnblogs.com/guoyaohua/p/8724433.htmlBatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。BN 本质...
复制链接

扫一扫

专栏目录

lllily CSDN认证博客专家 CSDN认证企业博客

码龄7年

27: 原创

74万+: 周排名

119万+: 总排名

13万+: 访问

: 等级

955: 积分

36: 粉丝

127: 获赞

31: 评论

713: 收藏

私信

关注

热门文章

分类专栏

算法发
算法 1篇
研发 12篇
计算机视觉
linux 1篇
Python 9篇
mysql 1篇
pytorch 1篇
深度学习 3篇
C++
java 1篇
操作系统 2篇
推荐系统 1篇

最新评论

人脸识别模型训练
shining5566: 谢谢，我去学习学习
人脸识别模型训练
dman3: 训练一次大概要多久啊
人脸识别模型训练
m0_53903957: 大佬，你给的那个模型可以直接用来做人脸识别吗？
pytorch 多GPU训练总结（DataParallel的使用）
长星照耀十三州府_: 回家继承深圳的三套房了
Batch Normalization 论文阅读
袁一白: 关于BN，你读论文，和我有点不一样：加入BN的地方，确实是提了俩假设，但俩假设是： 1.training step又包含两种子假设：优化内，优化外 a，优化步骤内（if these modifications are interspersed with the optimization steps, then the gradient descent step may attempt to update the parameters in a way that requires the normalization to be updated）没作用。 b。步骤外（where the model blows up when the normalization parameters are computed outside the gradient descent step）模型崩溃。。。 2 才是应该的地方，此时有两个简化另外，我有一个疑问：γ，β（原论文中是affine transform）是可以关闭吧？并没有说必须开

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。