【深度学习】批规范化 (Batch Normalization，BN)

JNingWei

已于 2023-01-26 16:03:11 修改

阅读量5.7k

点赞数

分类专栏：深度学习文章标签：深度学习人工智能计算机视觉神经网络 cnn

于 2017-12-21 18:34:38 首次发布

本文链接：https://blog.csdn.net/jningwei/article/details/78866591

版权

深度学习专栏收录该内容

79 篇文章 62 订阅

订阅专栏

Introduction

批规范化，batch normalization，即著名的 BN 操作。
顾名思义，是 对batch的操作 。

$\gamma \cdot \frac{x-\mu}{\sqrt{\delta^2 + \epsilon}} + \beta = \left\{\begin{aligned} &\gamma&, & gamma:& scale \\ &\mu&, & mu:& mean \\ &\delta&, & delta:& var \\ &\beta&, & beta:& offset \\ \end{aligned}\right.$

Birth

15年2月的论文：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift。

Motivation

为了防止隐层的输入分布老是变来变去，BN让每个隐层节点的 激活输入分布缩小到 (-1, 1) 。

Note：

是缩小到 (-1, 1)，而非缩小到 (0, 1)。

计算流程

计算均值和方差；
做 规范化；
乘上缩放矩阵，加上平移向量 。

输入为 $in：B = \{x_1, ..., x_N\}$ ，输出为 $out：y^{\prime} = \{BN_{\gamma,\beta}(x_1), ... \}$ 。

$\mu \gets \frac{1}{N}\sum^{N}_{i=1}{x_i}，计算batch的均值$
$\delta^2 \gets \frac{1}{N}\sum^{N}_{i=1}{(x_i-\mu)^2}，计算batch的方差$
$\hat{x}_i \gets \frac{x_i - \mu}{\sqrt{\delta^2 + \epsilon}}，规范化$
$y_i \gets \gamma \cdot \hat{x}_i + \beta，缩放和平移$
$\ \ 学到的 \gamma 和 \beta$

作用

前向时约束输入空间：
- 1.突出重点区域的响应，提高泛化性。
- 2.好调参。
反向时防止梯度问题：
- 1.（把小的放大，把大的放小）快速收敛。

python实现

Summary

“ conv -> bn -> relu ” 套件目前早已成为了CNN标配module。
BN因为在前馈的时候缩小了输入空间，而前馈时的输入空间又直接影响了反馈计算时的梯度状况。所以说，BN其实帮助减缓了梯度问题。
假设输入是shape为 [N, H, W, C] 的tensor，则bn是沿着C维，对各channel的 [N, H, W] 分别求出一个mean和variance。所以最终输出的mean和variance的shape都是 [C, ] 。

[1] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
[2] Understanding Batch Normalization
[3] Batch Normalization导读
[4] 深度学习中 Batch Normalization为什么效果好？
[5] 深度学习: gradient diffusion (梯度弥散)