Filter Response Normalization Layer(FRN)

最新推荐文章于 2022-10-27 21:57:42 发布

bestrivern

最新推荐文章于 2022-10-27 21:57:42 发布

阅读量2k

点赞数 2

分类专栏： deep learning

本文链接：https://blog.csdn.net/bestrivern/article/details/103739463

版权

deep learning 专栏收录该内容

49 篇文章 30 订阅

订阅专栏

一.概述

目前主流的深度学习模型都会采用BN层（Batch Normalization）来加速模型训练以及提升模型效果，对于CNN模型，BN层已经上成为了标配。但是BN层在训练过程中需要在batch上计算中间统计量，这使得BN层严重依赖batch，造成训练和测试的不一致性，当训练batch size较小，往往会恶化性能。GN（Group Normalization）通过将特征在channel维度分组来解决这一问题，GN在batch size不同时性能是一致的，但对于大batch size，GN仍然难以匹敌BN。这里我们要介绍的是谷歌提出的一种新的归一化方法FRN，和GN一样不依赖batch，但是性能却优于BN和GN。

FRN的效果如下图所示：

本文的主要工作如下：

FRN是一种pre-channel的归一化方法，提升了准确率
提出了TLU，在大的batchsize上表现超过了BN，是FRN的一部分

在related work中，几种方法已经被提出去解决小batch_size效果不好的情况：

1.Methods reducing train-test discrepancy in batch normalization

减少模型训练和测试时候batch_size的差异.

由于mini-batch的随机性和有些样本非独立同分布所导致的。采用Batch Renormalization (BR) 的方法，即为通过限制mini-batch到一个确定的范围内和通过限制训练期间小批量统计数据的变化.该方案的一个关键的好处即为模型在测试时和传统的BN一样.
训练过程不变,对于测试过程做出改变.法1和法2对于小的batch_size仍然表现出性能下降
多卡BN

2.Methods avoiding normalization using mini-batches

避免使用min-batch来进行归一化。方法有LN，IN，GN等。

3.Other approaches

Weight Normalization
Normalization Propagation

BN的一个问题是训练时batch size一般较大，但是测试时batch size一般为1，而均值和方差的计算依赖batch，这将导致训练和测试不一致。BN的解决方案是在训练时估计一个均值和方差量来作为测试时的归一化参数，一般对每次mini-batch的均值和方差进行指数加权平均来得到这个量。虽然解决了训练和测试的不一致性，但是BN对于batch size比较敏感，当batch size较小时，模型性能会明显恶化。对于一个比较大的模型，由于显存限制，batch size难以很大，比如目标检测模型，这时候BN层可能会成为一种限制。

二.详解

FRN旨在于消除batch_size对于归一化的影响,但是不能牺牲BN在大的batch_size上所获得性能.

谷歌的提出的FRN层包括归一化层FRN（Filter Response Normalization）和激活层TLU（Thresholded Linear Unit），如下图所示。FRN层不仅消除了模型训练过程中对batch的依赖，而且当batch size较大时性能优于BN。

其中FRN的操作是(H, W)维度上的，即对每个样例的每个channel单独进行归一化，这里 x 就是一个N维度（HxW）的向量，所以FRN没有BN层对batch依赖的问题。BN层采用归一化方法是减去均值然后除以标准差，而FRN却不同，这里没有减去均值操作，公式中的 v^2 是x 的二次范数的平均值。这种归一化方式类似BN可以用来消除中间操作（卷积和非线性激活）带来的尺度问题，有助于模型训练。公式里的 $\epsilon$ 是一个很小的正常量，以防止除0。FRN是在H,W两个维度上归一化，一般情况下网络的特征图大小N=HxW较大，但是有时候可能会出现1x1的情况，比如InceptionV3和VGG网络，此时 $\epsilon$ 就比较关键，下图给出了当N=1时不同 $\epsilon$ 下归一化的结果。

当 $\epsilon$ 值较小时，归一化相当于一个符号函数（sign function），这时候梯度几乎为0，严重影响模型训练；当值较大时，曲线变得更圆滑，此时的梯度利于模型学习。对于这种情况，论文建议采用一个可学习的 $\epsilon$ 。对于不含有1x1特征的模型，论文中采用的是一个常量值1e-6。值得说明的是IN也是在H,W维度上进行归一化，但是会减去均值，对于N=1的情况归一化的结果是0，但FRN可以避免这个问题。

归一化之后同样需要进行缩放和平移变换，这里的 $\gamma$ 和 $\beta$ 也是可学习的参数（参数大小为C）：