Batch Normalization论文阅读笔记

标题: Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

随机梯度下降法(SGD)是训练深度网络的首选,利用momentum 和Adagrad等来达到最佳的性能。尽管随机梯度下降法对于训练深度网络简单高效,但是需要我们人为的去选择参数,比如学习速率、初始化参数、权重衰减系数、Dropout比例,等等。这些参数的选择对训练结果至关重要,以至于我们很多时间都浪费在这些的调参上。

神经网络学习过程本质就是为了学习数据分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低。

输入层的数据,已经人为的的归一化,后面网络每一层的输入数据分布是一直在发生变化的,前面层训练参数的更新将导致后面层输入数据分布的变化,因此必然会引起后面每一层输入数据分布的改变。而且,网络的前面几层发生微小的改变,那么后面几层就会被累积放大下去。我们把网络中间层在训练过程中,数据分布的改变称之为:“Internal Covariate Shift”BN的提出,就是要解决在训练过程中,中间层数据分布发生改变的情况。

BN步骤:

  1. 求每一个小批量训练数据的均值;
  2. 求每一个小批量训练数据的方差;
  3. 使用求得的均值和方差对该批次的训练数据做归一化,获得0-1分布。其中ε 是为了避免除数为0时所使用的微小正数;
  4. 尺度变换和偏移:将xi乘以γ调整数值大小,再加上β 增加偏移后得到yi,这里的γ 是尺度因子,β是平移因子。这一步是BN的精髓,由于归一化后的xi 基本会被限制在正态分布下,使得网络的表达能力下降。为解决该问题,我们引入两个新的参数:γ , β 。γ和β是在训练时网络自己学习得到的
    在这里插入图片描述

Batch Normalization允许训练使用更高的学习率

Batch Gradient Descent(批处理的随机梯度下降)使用多个梯度的均值来更新权重,用相对少的训练次数遍历完整个训练集,也正是因为平均了多个样本的梯度,许多样本对神经网络的贡献就被其他样本平均掉了,相当于在每个epoch中,训练集的样本数被缩小了。batch中每个样本的差异性越大,这种弊端就越严重。

而BN首先是把所有的samples的统计分布标准化,降低了batch内不同样本的差异性,然后又允许batch内的各个samples有各自的统计分布。所以,BN的优点自然也就是允许网络使用较大的学习速率进行训练,加快网络的训练速度(减少epoch次数),提升效果

Batch Normalization防止过拟合

批归一化可帮助我们避免 x 的值在经过非线性激活函数之后陷入饱和的现象。也就是说,批归一化能够确保激活都不会过高或过低,确保不会梯度爆炸或者梯度消失。这有助于权重学习——如果不使用这一方案,某些权重可能永远不会学习。这还能帮助我们降低对参数的初始值的依赖。

批归一化也可用作正则化(regularization)的一种形式,有助于实现过拟合的最小化。使用批归一化时,我们无需再使用过多的 dropout;这是很有助益的,因为我们无需担心再执行 dropout 时丢失太多信息。但是,仍然建议组合使用这两种技术。

实验与结果

本文在MNIST手写数字识别的数据集上进行实验,结果显示没有用BN的原始网络的分布随着时间的变化都有显著变化,这使得后续隐藏层的训练复杂化。
而进行了批归一化(BN)的网络随着训练的进行中的分布更加稳定,使得训练速度更快,精度更高。
在这里插入图片描述
本文在Inception单网络上进行BN实验,结果如图2和图3所示,结果显示在BN-基线和BN-x5中加大学习率可以显著提高训练速度,而进一步提高学习率(BN-x30)会导致模型最初的训练有点慢,但达到了更高的精度。
在这里插入图片描述
在这里插入图片描述
通过将多个训练过的模型与批归一化(BN)相结合进行实验,结果比图像网络上最著名的系统表现得更好。
在这里插入图片描述

参考文献

[1] Ioffe, S. , and C. Szegedy . “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift.” JMLR.org (2015).
[2] https://baijiahao.baidu.com/s?id=1612936475591914473&wfr=spider&for=pc
[3] https://www.cnblogs.com/shona/p/12181061.html
[4]https://blog.csdn.net/vict_wang/article/details/88075861

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值