【深度学习】batch normalization

参考:https://www.cnblogs.com/guoyaohua/p/8724433.html

引入原因:深度网络训练过程中,每一层的参数都会不断变化,很可能导致每一层的输出(即对下一层的输入)的分布发生变化,因此导致模型收敛变慢,(本质原因:输出逐渐向左右两端移动,导致曲线平缓,比如sigmoid,从而梯度消失问题产生,因此收敛越来越慢)。

解决方法:BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。具体就是将上一层的输出(即本层的输入)转换成均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落入对输入比较敏感的区域,以此避免梯度消失问题。

训练时:即在每次线性后,激活函数之前使用BN。作用是使得每一层的输出都是统一的分布,不会太往两边靠。可以有效的减缓收敛慢的问题。训练时,对每一个minibatch:注意其中的xi代表了上一层的输出经过线性变换后的结果,也就是相比于非BN,这里再激活函数之前标准化了一下。gama和beta都是超参数,为了防止归一化后丢失原来学习到的特征。注意:normalization的均值方差只基于当前的minibatch,并且normalization对输入层的每一维单独计算均值方差

测试时(推理时),由于测试数据可能是单一的,所以不存在使用minibatch一组来计算均值方差然后标准化。因此这里使用的均值和方差是训练时k个batch得到的k组均值和方差的期望。

优点:①不仅仅极大提升了训练速度,收敛过程大大加快;②还能增加分类效果,一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式,所以不用Dropout也能达到相当的效果;③另外调参过程也简单多了,对于初始化要求没那么高,而且可以使用大的学习率等。总结来说解决:1. 过拟合(正则化);2. 收敛慢(梯度消失,sigmoid)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值