损失函数的意义和作用_BN究竟起了什么作用？一个闭门造车的分析-CSDN博客

本文链接：https://blog.csdn.net/weixin_39876514/article/details/111278954

作者丨苏剑林

单位丨追一科技

研究方向丨NLP，神经网络

个人主页丨kexue.fm

BN，也就是 Batch Normalization [1]，是当前深度学习模型(尤其是视觉相关模型)的一个相当重要的技巧，它能加速训练，甚至有一定的抗过拟合作用，还允许我们用更大的学习率，总的来说颇多好处(前提是你跑得起较大的 batch size)。

那BN究竟是怎么起作用呢？早期的解释主要是基于概率分布的，大概意思是将每一层的输入分布都归一化到 N (0, 1) 上，减少了所谓的 Internal Covariate Shift，从而稳定乃至加速了训练。这种解释看上去没什么毛病，但细思之下其实有问题的：不管哪一层的输入都不可能严格满足正态分布，从而单纯地将均值方差标准化无法实现标准分布 N (0, 1) ；其次，就算能做到 N (0, 1) ，这种诠释也无法进一步解释其他归一化手段(如 Instance Normalization、Layer Normalization)起作用的原因。

在去年的论文 How Does Batch Normalization Help Optimization? [2] 里边，作者明确地提出了上述质疑，否定了原来的一些观点，并提出了自己关于 BN 的新理解：他们认为 BN 主要作用是使得整个损失函数的 landscape 更为平滑，从而使得我们可以更平稳地进行训练。

本文主要也是分享这篇论文的结论，但论述方法是笔者“闭门造车”地构思的。窃认为原论文的论述过于晦涩了，尤其是数学部分太不好理解，所以本文试图尽可能直观地表达同样观点。

阅读本文之前，请确保你已经清楚知道 BN 是什么，本文不再重复介绍 BN 的概念和流程。