BN_batch normalization

最新推荐文章于 2020-12-08 19:36:17 发布

weixin_30469895

最新推荐文章于 2020-12-08 19:36:17 发布

阅读量59

点赞数

原文链接：http://www.cnblogs.com/abella/p/10282225.html

版权

参考：

https://zhuanlan.zhihu.com/p/27938792

设，每个batch输入是 x=[x_0,x_1,x_2,...,x_n] （其中每个 x_i 都是一个样本，是batch size）假如在第一层后加入Batch normalization layer后， h_1 的计算就倍替换为下图所示的那样。

矩阵先经过的线性变换后得到
- 注：因为减去batch的平均值 $\mu_B$ 后，的作用会被抵消掉，所以没必要加入（红色删除线）。
将再减去batch的平均值，并除以batch的标准差得到。是为了避免除数为0的情况所使用的微小正数。
- $\mu_B=\frac {1}{m} \sum^m_{i=0}W_{h_1}x_{i,:}$
- $\sigma^2_B=\frac {1}{m} \sum^m_{i=0}(W_{h_1}x_{i,:}-\mu_B)^2$
- 注：但基本会被限制在正态分布下，使得网络的表达能力下降。为解决该问题，引入两个新的parameters： $\gamma$ 和 $\beta$ 。 $\gamma$ 和 $\beta$ 是在训练时网络自己学习得到的。
将乘以 $\gamma$ 调整数值大小，再加上 $\beta$ 增加偏移后得到。
为加入非线性能力，也会跟随着ReLU等激活函数。
最终得到的会被送到下一层作为输入。

需要注意的是，上述的计算方法用于在训练。因为测试时常会只预测一个新样本，也就是说batch size为1。若还用相同的方法计算 $\mu_B$ ， $\mu_B$ 就会是这个新样本自身， $s_1-\mu_B$ 就会成为0。

所以在测试时，所使用的 $\mu$ 和 $\sigma^2$ 是整个训练集的均值 $\mu_P$ 和方差 $\sigma^2_P$ 。

而整个训练集的均值 $\mu_P$ 和方差 $\sigma^2_P$ 的值通常也是在训练的同时用移动平均法来计算

转载于:https://www.cnblogs.com/abella/p/10282225.html

关注