深度学习：批归一化

最新推荐文章于 2024-05-23 12:49:04 发布

ShadyPi

最新推荐文章于 2024-05-23 12:49:04 发布

阅读量408

点赞数 1

分类专栏：深度学习与神经网络文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/ShadyPi/article/details/122789225

版权

深度学习与神经网络专栏收录该内容

19 篇文章 1 订阅

订阅专栏

批归一化

通过批归一化，可以让超参数的搜索变得简单一些。在施加了批归一化后，神经网络对于超参数的敏感度会降低，具有更强的鲁棒性。

批归一化将每层传输给激励函数的值都进行归一化，相当于把每层隐藏层都看作单独的神经网络，将输入数据进行归一化，降低了网络之间的耦合。

跟对输入数据的归一化相似，批量归一化做的工作也差不多，不过归一化的对象变成了神经网络中传入激活函数的值 $z^{[l](i)}$ ，简单来说就是我们求出
$\mu^{[l]}=\frac{1}{m}\sum_{i=1}^mz^{[l](i)}\\ \sigma^{2[l]}=\frac{1}{m}\sum_{i=1}^m(z^{[l](i)}-\mu^{[l]})^2$ 然后把 $z^{[l](i)}$ 化为均值为0，方差为1的数据：
$z^{[l](i)}_\text{norm}=\frac{z^{[l](i)}-\mu^{[l]}}{\sqrt{\sigma^{2[l]}+\varepsilon}}$
不过有些时候，我们希望自己定义 $z^{[l](i)}$ 的均值与方差，可以通过两个参数 $\gamma$ 与 $\beta$ （又是 $\beta$ ）来控制，即令
$\tilde{z}^{[l](i)}=\gamma^{[l]} z^{[l](i)}_\text{norm}+\beta^{[l]}$ 来将 $z^{[l](i)}$ 调整到需要的分布。

其中 $\gamma^{[l]}$ 和 $\beta^{[l]}$ 不需要手动设置，它们可以作为普通参数在收敛过程中直接学习。同时，因为在归一化的时候，所有 $z^{[l](i)}$ 的平均值都会被调整为0，所以参数 $b^{[l]}$ 就不需要了，我们只保留 $W^{[l]},\gamma^{[l]}$ 与 $\beta^{[l]}$ 。

所以，在向前传播时，我们的计算过程为
$\begin{aligned} &Z^{[l]}=W^{[l]}A^{[l-1]}\\ &\mu^{[l]}=\frac{1}{m}np.sum(Z^{[l]},axis=1,keepdims=True)\\ &\sigma^2=\frac{1}{m}np.sum((Z^{[l]}-\mu^{[l]})^2,axis=1,keepdims=True)\\ &Z^{[l]}_\text{norm}=\frac{Z^{[l]}-\mu^{[l]}}{\sqrt{\sigma^{2[l]}+\varepsilon}}\\ &\tilde{Z}^{[l]}=\gamma^{[l]}*Z^{[l]}_\text{norm}+\beta^{[l]}\\ &A^{[l]}=g^{[l]}(\tilde{Z}^{[l]}) \end{aligned}$
向后传播计算过程为
$\begin{aligned} &d\tilde{Z}^{[l]}=dA^{[l]}*g^{[l]'}(\tilde{Z}^{[l]})\\ &dZ^{[l]}_\text{norm}=d\tilde{Z}^{[l]}*\gamma^{[l]} \\ &d\beta^{[l]}=\frac{1}{m}np.sum(d\tilde{Z}^{[l]},axis=1,keepdims=True)\\ &d\gamma^{[l]}=\frac{1}{m}np.sum(d\tilde{Z}^{[l]}*Z^{[l]}_\text{norm},axis=1,keepdims=True)\\ &d\sigma^{2[l]}=\frac{1}{m}np.sum(dZ^{[l]}_\text{norm}*(Z^{[l]}-\mu^{[l]})(\frac{-(\sigma^{2[l]}+\varepsilon)^{-\frac{3}{2}}}{2}),axis=1,keepdims=True) \\ &d\mu^{[l]}=\frac{1}{m}np.sum(dZ^{[l]}_\text{norm}*\frac{-1}{\sqrt{\sigma^{2[l]}+\varepsilon}},axis=1,keepdims=True)+d\sigma^{2[l]}\frac{1}{m}np.sum(-2(Z^{[l]}-\mu^{[l]}),axis=1,keepdims=True) \\ &dZ^{[l]}=\frac{1}{\sqrt{\sigma^{2[l]}+\varepsilon}}*dZ^{[l]}_\text{norm}+\frac{2(Z^{[l]}-\mu^{[l]})}{m}*d\sigma^{2[l]}+\frac{1}{m}d\mu^{[l]} \\ &dW^{[l]}=\frac{1}{m}dZ^{[l]}A^{[l-1]T}\\ \end{aligned}$

测试时，因为可能只有单组数据，我们无法直接求出 $\mu$ 和 $\sigma^2$ 。因此在测试集中使用BN算法时，我们会利用训练集里的 $\mu$ 和 $\sigma^2$ 的指数加权平均来作为估计值对测试数据进行批归一化。一般使用的深度学习框架还会提供类似的工具来估算均值和方差，事实上只要是合理的估算，BN算法在测试集上的鲁棒性是很强的。