学习笔记3-BN-inception

最新推荐文章于 2022-08-11 11:27:41 发布

Shl_1024

最新推荐文章于 2022-08-11 11:27:41 发布

阅读量1.2k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Shl_1024/article/details/102737963

版权

批标准化（Batch Normalization）通过减少内部协变量转移加速深度网络训练，通过标准化层输入，使得网络训练更快，减少优化器饱和状态问题。在训练过程中，BN在网络的每一层后应用，保持激活值的零均值和单位方差，通过可学习的参数恢复网络表达能力。实验表明，批标准化在网络中显著提高了训练速度和模型准确性，甚至减少了对Dropout的需求。

摘要由CSDN通过智能技术生成

论文Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift的学习记录。

一、提出问题：Internal covariate shift内部协变量转移

由于前面层的参数会发生变化，导致后面每层输入的分布在训练过程中同样会发生变化。这将要求较低的学习率和仔细的参数初始化减慢了训练，并且使具有饱和非线性的模型训练起来非常困难，使训练深度神经网络更加复杂。

1、随机梯度下降(SGD)

这里的SGD指的是所说的小批量梯度下降，SGD优化网络参数Θ来最小化损失。考虑大小为m的小批量数据来近似损失函数关于参数的梯度。

优点：简单有效。使用小批量数据既能大大减小收敛的迭代次数，同时使收敛的结果更加接近使用整个数据集梯度下降的效果。

缺点：需要仔细调整模型的超参数，特别是优化中使用的学习速率以及模型参数的初始值。但由于每层的输入都会受到前面所有层参数的影响，当网络变得更深时，网络参数的微小变化就会被放大。

出现问题：层输入分布的变化会使训练更复杂

对于网络计算，我们可以用以下公式表示通过学习参数Θ1，Θ2以最小化损失ℓ。我们可以将F1(u,Θ1)看作输入x送入子网络，这样当x的分布是固定时，训练Θ2是很容易收敛的；但当x的分布不断变换时，Θ2必须重新调整来补偿x分布的变化。

同理，对于梯度下降公式可以等价于输入为x的单独网络F2。

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
学习笔记3-BN-inception

论文Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift的学习记录。一、提出问题：Internal covariate shift内部协变量转移由于前面层的参数会发生变化，导致后面每层输入的分布在训练过程中同样会发生变化。这将要求较低的学习率和仔细的参数初始化减...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。