Batch Norm/Layer Norm/Instance Norm /Group Norm/Switchable Norm

最新推荐文章于 2023-11-30 23:35:50 发布

一枚小码农

最新推荐文章于 2023-11-30 23:35:50 发布

阅读量342

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/sinat_25394043/article/details/103510845

版权

NLP 专栏收录该内容

39 篇文章 12 订阅

订阅专栏

BatchNorm存在的问题

局限1：如果Batch Size太小，则BN效果明显下降。

BN是严重依赖Mini-Batch中的训练实例的，如果Batch Size比较小则任务效果有明显的下降。那么多小算是太小呢？图10给出了在ImageNet数据集下做分类任务时，使用ResNet的时候模型性能随着BatchSize变化时的性能变化情况，可以看出当BatchSize小于8的时候开始对分类效果有明显负面影响。之所以会这样，是因为在小的BatchSize意味着数据样本少，因而得不到有效统计量，也就是说噪音太大。这个很好理解，这就类似于我们国家统计局在做年均收入调查的时候，正好把你和马云放到一个Batch里算平均收入，那么当你为下个月房租发愁之际，突然听到你所在组平均年薪1亿美金时，你是什么心情，那小Mini-Batch里其它训练实例就是啥心情。

图10. BN的Batch Size大小对ImageNet分类任务效果的影响（From GN论文）

BN的Batch Size大小设置是由调参师自己定的，调参师只要把Batch Size大小设置大些就可以避免上述问题。但是有些任务比较特殊，要求batch size必须不能太大，在这种情形下，普通的BN就无能为力了。比如BN无法应用在Online Learning中，因为在线模型是单实例更新模型参数的，难以组织起Mini-Batch结构。

局限2：对于有些像素级图片生成任务来说，BN效果不佳

对于图片分类等任务，只要能够找出关键特征，就能正确分类，这算是一种粗粒度的任务，在这种情形下通常BN是有积极效果的。但是对于有些输入输出都是图片的像素级别图片生成任务，比如图片风格转换等应用场景，使用BN会带来负面效果，这很可能是因为在Mini-Batch内多张无关的图片之间计算统计量，弱化了单张图片本身特有的一些细节信息。

局限3：RNN等动态网络使用BN效果不佳且使用起来不方便

对于RNN来说，尽管其结构看上去是个静态网络，但在实际运行展开时是个动态网络结构，因为输入的Sequence序列是不定长的，这源自同一个Mini-Batch中的训练实例有长有短。对于类似RNN这种动态网络结构，BN使用起来不方便，因为要应用BN，那么RNN的每个时间步需要维护各自的统计量，而Mini-Batch中的训练实例长短不一，这意味着RNN不同时间步的隐层会看到不同数量的输入数据，而这会给BN的正确使用带来问题。假设Mini-Batch中只有个别特别长的例子，那么对较深时间步深度的RNN网络隐层来说，其统计量不方便统计而且其统计有效性也非常值得怀疑。另外，如果在推理阶段遇到长度特别长的例子，也许根本在训练阶段都无法获得深层网络的统计量。综上，在RNN这种动态网络中使用BN很不方便，而且很多改进版本的BN应用在RNN效果也一般。

可以参考知乎这个问题：https://www.zhihu.com/question/308310065/answer/569167072

局限4：训练时和推理时统计量不一致

对于BN来说，采用Mini-Batch内实例来计算统计量，这在训练时没有问题，但是在模型训练好之后，在线推理的时候会有麻烦。因为在线推理或预测的时候，是单实例的，不存在Mini-Batch，所以就无法获得BN计算所需的均值和方差，一般解决方法是采用训练时刻记录的各个Mini-Batch的统计量的数学期望，以此来推算全局的均值和方差，在线推理时采用这样推导出的统计量。虽说实际使用并没大问题，但是确实存在训练和推理时刻统计量计算方法不一致的问题。

LN与BN的区别 https://zhuanlan.zhihu.com/p/74516930