【深度学习】batch normalization

最新推荐文章于 2022-04-19 12:26:31 发布

maershii

最新推荐文章于 2022-04-19 12:26:31 发布

阅读量349

点赞数

分类专栏：深度学习文章标签：深度学习 batch normalization

本文链接：https://blog.csdn.net/u013166817/article/details/84876572

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

参考：https://www.cnblogs.com/guoyaohua/p/8724433.html

引入原因：深度网络训练过程中，每一层的参数都会不断变化，很可能导致每一层的输出（即对下一层的输入）的分布发生变化，因此导致模型收敛变慢，（本质原因：输出逐渐向左右两端移动，导致曲线平缓，比如sigmoid，从而梯度消失问题产生，因此收敛越来越慢）。

解决方法：BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。具体就是将上一层的输出（即本层的输入）转换成均值为0方差为1的比较标准的正态分布，使得非线性变换函数的输入值落入对输入比较敏感的区域，以此避免梯度消失问题。

训练时：即在每次线性后，激活函数之前使用BN。作用是使得每一层的输出都是统一的分布，不会太往两边靠。可以有效的减缓收敛慢的问题。训练时，对每一个minibatch：注意其中的xi代表了上一层的输出经过线性变换后的结果，也就是相比于非BN，这里再激活函数之前标准化了一下。gama和beta都是超参数，为了防止归一化后丢失原来学习到的特征。注意：normalization的均值方差只基于当前的minibatch，并且normalization对输入层的每一维单独计算均值方差

测试时（推理时），由于测试数据可能是单一的，所以不存在使用minibatch一组来计算均值方差然后标准化。因此这里使用的均值和方差是训练时k个batch得到的k组均值和方差的期望。

优点：①不仅仅极大提升了训练速度，收敛过程大大加快；②还能增加分类效果，一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式，所以不用Dropout也能达到相当的效果；③另外调参过程也简单多了，对于初始化要求没那么高，而且可以使用大的学习率等。总结来说解决：1. 过拟合（正则化）；2. 收敛慢（梯度消失，sigmoid）

maershii

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【深度学习】batch normalization

参考：https://www.cnblogs.com/guoyaohua/p/8724433.html引入原因：深度网络训练过程中，每一层的参数都会不断变化，很可能导致每一层的输出（即对下一层的输入）的分布发生变化，因此导致模型收敛变慢，（本质原因：输出逐渐向左右两端移动，导致曲线平缓，比如sigmoid，从而梯度消失问题产生，因此收敛越来越慢）。解决方法：BatchNorm就是在深度神经...
复制链接

扫一扫

专栏目录