BN究竟起了什么作用？一个闭门造车的分析

最新推荐文章于 2024-07-30 17:56:02 发布

PaperWeekly

最新推荐文章于 2024-07-30 17:56:02 发布

阅读量1.3k

点赞数 2

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/102550191

版权

本文探讨BN（Batch Normalization）在深度学习中的作用，指出其主要通过平滑损失函数 landscape 加速训练，而非简单地归一化输入分布。作者提出BN降低神经网络梯度的Lipschitz常数，使学习更平稳，允许使用更大学习率。BN通过减均值除标准差，降低梯度L常数，同时类似自适应学习率，促进参数同步更新，减少过拟合。

摘要由CSDN通过智能技术生成

640?

作者丨苏剑林

单位丨追一科技

研究方向丨NLP，神经网络

个人主页丨kexue.fm

BN，也就是 Batch Normalization [1]，是当前深度学习模型（尤其是视觉相关模型）的一个相当重要的技巧，它能加速训练，甚至有一定的抗过拟合作用，还允许我们用更大的学习率，总的来说颇多好处（前提是你跑得起较大的 batch size）。

那BN究竟是怎么起作用呢？早期的解释主要是基于概率分布的，大概意思是将每一层的输入分布都归一化到 N (0, 1) 上，减少了所谓的 Internal Covariate Shift，从而稳定乃至加速了训练。这种解释看上去没什么毛病，但细思之下其实有问题的：不管哪一层的输入都不可能严格满足正态分布，从而单纯地将均值方差标准化无法实现标准分布 N (0, 1) ；其次，就算能做到 N (0, 1) ，这种诠释也无法进一步解释其他归一化手段（如 Instance Normalization、Layer Normalization）起作用的原因。

在去年的论文 How Does Batch Normalization Help Optimization? [2] 里边，作者明确地提出了上述质疑，否定了原来的一些观点，并提出了自己关于 BN 的新理解：他们认为 BN 主要作用是使得整个损失函数的 landscape 更为平滑，从而使得我们可以更平稳地进行训练。

本文主要也是分享这篇论文的结论，但论述方法是笔者“闭门造车”地构思的。窃认为原论文的论述过于晦涩了，尤其是数学部分太不好理解，所以本文试图尽可能直观地表达同样观点。

阅读本文之前，请确保你已经清楚知道 BN 是什么，本文不再重复介绍 BN 的概念和流程。