Batch Normalization函数详解及反向传播中的梯度求导

最新推荐文章于 2024-05-10 09:44:27 发布

BrightLampCsdn

最新推荐文章于 2024-05-10 09:44:27 发布

阅读量1.8k

点赞数

分类专栏：深度学习基础

本文链接：https://blog.csdn.net/oBrightLamp/article/details/84332455

版权

摘要

本文给出 Batch Normalization 函数的定义, 并求解其在反向传播中的梯度

正文

1. 概念

批标准化 (Batch Normalization) 的思想来自传统的机器学习, 主要为了处理数据取值范围相差过大的问题.
比如, 正常成年人每升血液中所含血细胞的数量：

项目	数量
红细胞计数 RBC	$3.5×10^{12} \sim 5.5×10^{12}$ 个
白细胞计数 WBC	$5.0×10^9 \sim 10.0×10^9$ 个
血小板计数 PLT	$1.5×10^{11} \sim 3.5×10^{11}$ 个
血红蛋白 Hb	$\sim 160g/L$

如果这些指标发生异常变化, 人体就可能患病.
这些数据不仅量级差别非常大, 血红蛋白的单位还和其他项目不一样, 不可能直接用于机器学习.
传统的标准化方法 (Normalization) 是将这些数据统一缩放为 0 ~ 1 之间的数据.

深度神经网络学习过程中的 Batch Normalization 与之类似, 不同点在于数据规模非常大, 只能分批处理, 故称为批标准化.

2. 定义

批标准化是对同一个指标下的数据进行处理的, 与其他指标无关.
将同一个项目下的数据用向量 x 表示:
$(x_1,x_2,x_2,\cdots,x_k)$

均值 $m$ 及方差 $v$ 是标量 :
$m=\sum_{t=1}^{k}x_{t}/n\\ \;\\ v =\sum_{t=1}^{k} (x_{t} - m)^2/n$

为防止分母为零, 设一个极小数 $\varepsilon$ , 如 $\varepsilon=10^{-5}$ , 则数据标准化为 :
$s_{i} = \frac{x_{i} - m}{\sqrt{v + \varepsilon}}$

为了增强数据的表征力, 添加一个线性变换, 得 :
$y_i =w \cdot s_i + b\\ \;\\ y_i \;为\;x_i\;经过\;Batch Normalization\;转换后的数据\\ \;\\ w \;和\;b\;是标量, 对本批次本指标中所有 s_i 是相同的$

3. 训练过程中的反向传播的梯度

3.1 误差 e 对 x 的梯度

考虑一个 k 维输入向量 x , 经 Batch Normalization 得到向量 y, 往前 forward 传播得到误差值 error (标量 e ). 上游的误差梯度向量 $\nabla e_{(y)}$ 已在反向传播时得到, 求 e 对 x 的梯度.

已知 :
$e=forward(y)\\ \;\\ \nabla e_{(y)}=\frac{de}{dy}=(\frac{\partial e}{y_1}, \frac{\partial e}{y_2}, \frac{\partial e}{y_3}, \cdots, \frac{\partial e}{y_k} )\\ \;\\ m=\sum_{t=1}^{k}x_{t}/k\\ \;\\ v =\sum_{t=1}^{k} (x_{t} - m)^2/k\\ \;\\ s_{i} = \frac{x_{i} - m}{\sqrt{v + \varepsilon}}\\ \;\\ y_i =w \cdot s_i + b\\$

最低0.47元/天解锁文章

BrightLampCsdn

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
Batch Normalization函数详解及反向传播中的梯度求导

作者论文公式：https://arxiv.org/abs/1502.03167批标准化 (Batch Normalization) 的思想来自于传统的机器学习, 主要为了处理数据取值范围相差过大的问题.比如, 正常成年人每升血液中所含血细胞的数量：项目数量 (个)红细胞计数 RBC3.5×1012~5.5×1012个白细胞计数 WBC5.0×109~10.0...
复制链接

扫一扫