Batch Normalization的测试或推理过程及样本参数更新方法

最新推荐文章于 2022-09-16 14:54:12 发布

VIP文章 BrightLampCsdn

最新推荐文章于 2022-09-16 14:54:12 发布

阅读量2.4k

点赞数 4

分类专栏：深度学习基础

本文链接：https://blog.csdn.net/oBrightLamp/article/details/85391056

版权

摘要

本文探讨 Batch Normalization 在测试或推断时使用的算法及其原理.

正文

Batch Normalization 在训练时使用每批数据的均值和方差进行数据的规范化, 在测试或推断的时候使用全体数据的特征.

我们不可能在训练前再次遍历全体数据的特征, 耗时太大. 也不可能记录所有批次的中间结果, 内存消耗太大.

目前主流的深度学习框架 TensorFlow 和 PyTorch 等采用的是参数估计加滑动平均法, 并引入的一个超参数来解决这个问题.

接下来我们详细探讨这个方法的理论基础.

1. 分步使用样本特征计算总体特征

1.1 分步使用样本均值计算总体均值

已知一个 $k$ 维数组 $x$ 的均值为 $\mu$ , 标准差为 $\sigma$ , 排列成列数量不相等的矩阵 $X$ , 共 $m$ 行, 每行 $n_i$ 个元素, 下标 $i$ 表示第 $i$ 行.

其形式类似如下 :

$x_{11}$	$x_{12}$	$x_{13}$	$x_{14}$		$n_1 = 4)$
$x_{21}$	$x_{22}$	$x_{23}$			$n_2 = 3)$
$x_{31}$	$x_{32}$	$x_{33}$	$x_{34}$	$x_{35}$	$n_3 = 5)$
$x_{41}$	$x_{42}$				$n_4 = 2)$
$x_{51}$	$x_{52}$	$x_{53}$	$x_{54}$		$n_5 = 3)$

设第 $i$ 组的均值为 $\bar x_i$ , 标准差为 $s_i$ . 求 $\bar x$ 与 $\mu$ 的关系, 求 $s$ 与 $\sigma$ 的关系.

由题意, 知矩阵的元素的总数量 $k$ , 均值 $\mu$ , 方差 $\sigma^2$ :
$\sum_{i=1}^{m}n_i \;\\ \mu =\frac{1}{k}\sum_{i=1}^{m}\sum_{j=1}^{n_i}x_{ij}\\ \;\\ \sigma^2 = \frac{1}{k}\sum_{i=1}^{m}\sum_{j=1}^{n_i}(x_{ij}-\mu)^2$
因为 :
$\sum_{i=1}^{m}\sum_{j=1}^{n_i}x_{ij}=\sum_{j=1}^{n}n_i\bar x_i\\$
$\mu=\frac{1}{k}\sum_{j=1}^{n}n_i\bar x_i$

令 $n = 2$ :
$\mu=\frac{n_1\bar x_1 +n_2\bar x_2}{(n_1+n_2)}$

改成迭代式 :
$\mu_{i+1}=\frac{k_i\mu_i +n_{i+1}\bar x_{i+1}}{(k_i+n_{i+1})}$

最低0.47元/天解锁文章

BrightLampCsdn

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Batch Normalization的测试或推理过程及样本参数更新方法

摘要本文探讨 Batch Normalization 在测试或推断时使用的算法及其原理.相关配套代码, 请参考文章 :Python和PyTorch对比实现批标准化 Batch Normalization 函数在测试或推理过程中的算法.系列文章索引 :https://blog.csdn.net/oBrightLamp/article/details/85067981正文Batch N...
复制链接

扫一扫