学习笔记3-BN-inception

批标准化(Batch Normalization)通过减少内部协变量转移加速深度网络训练,通过标准化层输入,使得网络训练更快,减少优化器饱和状态问题。在训练过程中,BN在网络的每一层后应用,保持激活值的零均值和单位方差,通过可学习的参数恢复网络表达能力。实验表明,批标准化在网络中显著提高了训练速度和模型准确性,甚至减少了对Dropout的需求。
摘要由CSDN通过智能技术生成

论文Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift的学习记录。

一、提出问题:Internal covariate shift内部协变量转移

由于前面层的参数会发生变化,导致后面每层输入的分布在训练过程中同样会发生变化。这将要求较低的学习率和仔细的参数初始化减慢了训练,并且使具有饱和非线性的模型训练起来非常困难,使训练深度神经网络更加复杂。

1、随机梯度下降(SGD)

这里的SGD指的是所说的小批量梯度下降,SGD优化网络参数Θ来最小化损失。考虑大小为m的小批量数据来近似损失函数关于参数的梯度。

优点:简单有效。使用小批量数据既能大大减小收敛的迭代次数,同时使收敛的结果更加接近使用整个数据集梯度下降的效果。

缺点:需要仔细调整模型的超参数,特别是优化中使用的学习速率以及模型参数的初始值。但由于每层的输入都会受到前面所有层参数的影响,当网络变得更深时,网络参数的微小变化就会被放大。

出现问题:层输入分布的变化会使训练更复杂

对于网络计算,我们可以用以下公式表示通过学习参数Θ1,Θ2以最小化损失ℓ。我们可以将F1(u,Θ1)看作输入x送入子网络,这样当x的分布是固定时,训练Θ2是很容易收敛的;但当x的分布不断变换时,Θ2必须重新调整来补偿x分布的变化。

同理,对于梯度下降公式可以等价于输入为x的单独网络F2。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值