Batch Normalization: Accelerating Deep Network Training b y Reducing Internal Covariate Shift论文解读

最新推荐文章于 2023-03-13 10:59:02 发布

Dear_林

最新推荐文章于 2023-03-13 10:59:02 发布

阅读量1.1k

点赞数 1

分类专栏： Deep Learning paper 文章标签： batch 深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dear_learner/article/details/123518238

版权

本文探讨了BatchNorm在深度神经网络中的关键作用，它通过内部协变量转移的解决策略，确保每一层输入的稳定性，从而加快收敛速度，提升模型泛化能力。BN不仅提升训练效率，还作为正则化手段改善模型性能，同时简化了调参过程。

摘要由CSDN通过智能技术生成

论文：链接

前言

机器学习中有个很重要的假设：IID 独立同分布假设，就是假设训练数据和测试数据是满足相同的分布，这是通过训练数据获得的模型在测试数据上表现效果好的一个基本保障，也就是说模型的泛化能力。那BatchNorm的作用是什么呢？BatchNorm就是在深度神经网络的训练过程中使得每一层神经网络的输入保持相同的分布。

其实BatchNorm的提出也是为了解决深度神经网络训练困难的问题，像Relu、residual network也是为了解决这一问题的。

Q：为什么深度神经网络随着网络深度的加深，训练起来越困难，收敛越来越慢？

一、BN的提出

1、internal covariate shift

【We define Internal Covariate Shift as the change in the distribution of network activations due to the change in network parameters during training.】
论文中作者提出在训练深度神经网络时经常会出现训练困难的问题，因为每一层参数迭代更新后，上一层网络的输出经过这一层网络的计算，数据的分布会发生变化，因此为下一层网络的学习带来困难。

在深度学习中包含很多隐藏层，在训练过程中，各层的参数不停的在变化，所以每个隐藏层都面临着covariate shift，也就是说在训练过程中，隐藏层的输入分布总是在变化，这也就违背

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Dear_林 CSDN认证博客专家 CSDN认证企业博客

码龄3年

37: 原创

10万+: 周排名

209万+: 总排名

10万+: 访问

: 等级

508: 积分

36: 粉丝

117: 获赞

10: 评论

664: 收藏

私信

关注

热门文章

分类专栏

CV 3篇
python 6篇
Daily Notes 2篇
pytorch 18篇
paper 7篇
Deep Learning 3篇
数据结构与算法 1篇
机器学习 2篇

最新评论

MMAL-Net 论文解读
Dear_林: 这个没有哎
MMAL-Net 论文解读
SJC770: 请问您有MMAL-Net在stanford cars数据集预训练过的模型吗？
pytorch学习笔记十一：损失函数
qq_50069900: 博主很棒，讲了很多
labelimg的安装与使用
Dear_林: 切换到英文输入法试试？或者可以根据这个https://github.com/heartexlabs/labelImg重新安装一下
labelimg的安装与使用
L..K: 大佬想问个问题，就是我用这个软件的时候，用快捷键w框选完之后想换下一页，按d，可是没有反应，不用w的时候下一页的快捷键就能用，请问这个原因怎么解决？？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。