2.5 Batch Normalization

风过无痕0230

已于 2023-06-03 21:56:38 修改

阅读量57

点赞数

分类专栏：李宏毅机器学习课程文章标签： batch 开发语言

于 2023-06-03 21:06:29 首次发布

本文链接：https://blog.csdn.net/fengguowuhen0230/article/details/131024151

版权

李宏毅机器学习课程专栏收录该内容

13 篇文章 0 订阅

订阅专栏

BN（BatchNormalization）是一种用于神经网络的技术，旨在通过标准化特征值来改善梯度下降的效率。文章解释了BN的动机，即不同特征尺度导致梯度下降速度不一致，然后详细介绍了BN的做法，包括如何计算均值和标准差以及向量化表示。BN不仅应用于输入层，也用于中间层，以保持各层的稳定。在测试阶段，使用训练过程中的移动平均值来估计均值和方差。

摘要由CSDN通过智能技术生成

1. BN的动机

不同的特征，比如这个图的 $x_1$ 和 $x_2$ 的范围(scale)不一样，导致对应的参数的梯度差别很大，反映到左图的等高线： $x_1$ 的范围比较小，对应的梯度比较平滑， $x_2$ 的范围比较大，对应的梯度比较陡峭。这样不同的参数变化情况对于梯度下降是不利的，会导致梯度下降的速度缓慢。
如果把不同的特征，比如这个图的 $x_1$ 和 $x_2$ 的值进行标准化处理，变到同一scale，这样损失函数的等高线图就会变得像右图：不同维度梯度下降的速度接近，梯度下降的速度会比较快。
BN前后的损失函数等高线