BN使用方法

最新推荐文章于 2023-07-03 00:00:00 发布

lvedng^_^

最新推荐文章于 2023-07-03 00:00:00 发布

阅读量2.1k

点赞数 1

分类专栏：神经网络编程技术

神经网络同时被 2 个专栏收录

14 篇文章 1 订阅

订阅专栏

编程技术

10 篇文章 0 订阅

订阅专栏

本文转载：https://blog.csdn.net/m0_37987687/article/details/80241893

https://blog.csdn.net/heiheiya/article/details/81000756

https://blog.csdn.net/candy_gl/article/details/79551149

1.原理

公式如下：

y=γ(x-μ)/σ+β

其中x是输入，y是输出，μ是均值，σ是方差，γ和β是缩放（scale）、偏移（offset）系数。

一般来讲，这些参数都是基于channel来做的，比如输入x是一个16*32*32*128(NWHC格式)的feature map，那么上述参数都是128维的向量。其中γ和β是可有可无的，有的话，就是一个可以学习的参数（参与前向后向），没有的话，就简化成y=(x-μ)/σ。而μ和σ，在训练的时候，使用的是batch内的统计值，测试/预测的时候，采用的是训练时计算出的滑动平均值。

2.tensorflow中使用

tensorflow中batch normalization的实现主要有下面三个：

tf.nn.batch_normalization

tf.nn.batch_normalization(x,mean,variance,offset,scale,variance_epsilon,name=None)
x:input
mean:样本均值
variance:样本方差
offset:样本偏移(相加一个转化值)
scale:缩放（默认为1）
variance_epsilon:为了避免分母为0，添加的一个极小值

tf.layers.batch_normalization

tf.layers.batch_normalization(
    inputs,
    axis=-1,
    momentum=0.99,
    epsilon=0.001,
    center=True,
    scale=True,
    beta_initializer=tf.zeros_initializer(),
    gamma_initializer=tf.ones_initializer(),
    moving_mean_initializer=tf.zeros_initializer(),
    moving_variance_initializer=tf.ones_initializer(),
    beta_regularizer=None,
    gamma_regularizer=None,
    beta_constraint=None,
    gamma_constraint=None,
    training=False,
    trainable=True,
    name=None,
    reuse=None,
    renorm=False,
    renorm_clipping=None,
    renorm_momentum=0.99,
    fused=None,
    virtual_batch_size=None,
    adjustment=None

)

其中参数解释

inputs：输入Tensor。

axis：整数，应该归一化（通常是特征轴）。例如，在一个data_format="channels_first"的Convolution2D layer之后，BatchNormalization设置axis=1。

momentum：moving average。

epsilon：给variance加一个小浮点数以避免除以零。

center：如果为True，则给normalized Tensor添加一个beta offset。如果为False，beta 则忽略。

scale：如果为True，则乘以gamma。如果为False，gamma则不使用。当下一layer是线性的（例如nn.relu）时，它可以被禁用，因为缩放可以由下一layer完成。

beta_initializer：beta的initializer。

gamma_initializer：gamma的initializer。

moving_mean_initializer：moving mean的initializer。

moving_variance_initializer：moving variance的initializer。

beta_regularizer：beta的可选regularizer。

gamma_regularizer：gamma的可选regularizer。

beta_constraint：当beta被一个Optimizer更新后，对其应用一个可选的映射函数（例如，用于实现层权重的范数约束或值约束）。该函数必须将未映射的变量作为输入，并且必须返回映射变量（必须具有相同的形状）。在进行异步分布式训练时，使用约束是不安全的。

gamma_constraint：当gamma被一个Optimizer更新后，对其应用一个可选的映射函数。

training：一个Python布尔值或TensorFlow布尔标量Tensor（例如placeholder）。无论是否在训练模式下返回输出或在预测模式下。注意：确保正确设置此参数，否则训练/预测将无法正常工作。

trainable：布尔值，如果True还将变量添加到图集合中 GraphKeys.TRAINABLE_VARIABLES（请参阅tf.Variable）。

name：String，图层的名称。

reuse：布尔值，是否以同一名称重用前一层的权重。

renorm：是否使用 Batch Renormalization（https://arxiv.org/abs/1702.03275）。这会在训练期间增加额外的变量。对于此参数的任一值，预测都是相同的。

renorm_clipping：一个字典，可以将键'值rmax'，'rmin'，'dmax'映射到标量Tensors，用于剪辑renorm correction。校正 (r, d)使用公式corrected_value = normalized_value * r + d，r在[RMIN，RMAX]之间，d为在-dmax，DMAX]之间。如果没有设定，则rmax，rmin，dmax分别设定为inf，0，inf。

renorm_momentum：momentum用于更新moving means和standard deviations与renorm。与momentum不同的是，这会影响训练，既不能太小（会增加噪音）也不能太大（这会产生过时的估计）。请注意，momentum仍然应用于获取预测的均值和方差。

fused：if None或者True，如果可能的话，使用更快，更融合的实现。如果False，请使用系统推荐的实现。

virtual_batch_size：一个整数。默认情况下，virtual_batch_size是None，这表示在整个batch中执行Batch Renormalization。如果 virtual_batch_size不是None，则执行“Ghost Batch Normalization”，创建虚拟sub-batches，每个sub-batches分别进行Batch Renormalization（具有共享的gamma，beta和moving statistics）。必须在执行期间划分实际batch size。

adjustment：一个函数，例如，如果axis == - 1， adjustment = lambda shape: ( tf.random_uniform(shape[-1:], 0.93, 1.07), tf.random_uniform(shape[-1:], -0.1, 0.1)) 。
简单用法：

x_norm = tf.layers.batch_normalization(x, training=training)

tf.contrib.layers.batch_norm

tf.contrib.layers.batch_norm(
    inputs,
    decay=0.999,
    center=True,
    scale=False,
    epsilon=0.001,
    activation_fn=None,
    param_initializers=None,
    param_regularizers=None,
    updates_collections=tf.GraphKeys.UPDATE_OPS,
    is_training=True,
    reuse=None,
    variables_collections=None,
    outputs_collections=None,
    trainable=True,
    batch_weights=None,
    fused=None,
    data_format=DATA_FORMAT_NHWC,
    zero_debias_moving_mean=False,
    scope=None,
    renorm=False,
    renorm_clipping=None,
    renorm_decay=0.99,
    adjustment=None
)

其中参数

1 inputs：输入

2 decay ：衰减系数。合适的衰减系数值接近1.0,特别是含多个9的值：0.999,0.99,0.9。如果训练集表现很好而验证/测试集表现得不好，选择

小的系数（推荐使用0.9）。如果想要提高稳定性，zero_debias_moving_mean设为True

3 center：如果为True，有beta偏移量；如果为False，无beta偏移量

4 scale：如果为True，则乘以gamma。如果为False，gamma则不使用。当下一层是线性的时（例如nn.relu），由于缩放可以由下一层完成，

所以可以禁用该层。

5 epsilon：避免被零除

6 activation_fn：用于激活，默认为线性激活函数

7 param_initializers ： beta, gamma, moving mean and moving variance的优化初始化

8 param_regularizers ： beta and gamma正则化优化

9 updates_collections ：Collections来收集计算的更新操作。updates_ops需要使用train_op来执行。如果为None，则会添加控件依赖项以

确保更新已计算到位。

10 is_training:图层是否处于训练模式。在训练模式下，它将积累转入的统计量moving_mean并 moving_variance使用给定的指数移动平均值 decay。当它不是在训练模式，那么它将使用的数值moving_mean和moving_variance。
11 scope：可选范围variable_scope

注意：训练时，需要更新moving_mean和moving_variance。默认情况下，更新操作被放入tf.GraphKeys.UPDATE_OPS，所以需要添加它们作为依赖项train_op。例如：

update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS) with tf.control_dependencies(update_ops): train_op = optimizer.minimize(loss)
可以将updates_collections = None设置为强制更新，但可能会导致速度损失，尤其是在分布式设置中。

3.训练

训练的时候需要注意两点，(1)输入参数training=True,(2)计算loss时，要添加以下代码（即添加update_ops到最后的train_op中）。这样才能计算μ和σ的滑动平均（测试时会用到）

update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
with tf.control_dependencies(update_ops):
train_op = optimizer.minimize(loss)

4.测试

测试时需要注意一点，输入参数training=False，其他就没了

5.预测

预测时比较特别，因为这一步一般都是从checkpoint文件中读取模型参数，然后做预测。一般来说，保存checkpoint的时候，不会把所有模型参数都保存下来，因为一些无关数据会增大模型的尺寸，常见的方法是只保存那些训练时更新的参数（可训练参数），如下：

var_list = tf.trainable_variables()
saver = tf.train.Saver(var_list=var_list, max_to_keep=5)

但使用了batch_normalization，γ和β是可训练参数没错，μ和σ不是，它们仅仅是通过滑动平均计算出的，如果按照上面的方法保存模型，在读取模型预测时，会报错找不到μ和σ。更诡异的是，利用tf.moving_average_variables()也没法获取bn层中的μ和σ（也可能是我用法不对），不过好在所有的参数都在tf.global_variables()中，因此可以这么写：

var_list = tf.trainable_variables()
g_list = tf.global_variables()
bn_moving_vars = [g for g in g_list if 'moving_mean' in g.name]
bn_moving_vars += [g for g in g_list if 'moving_variance' in g.name]
var_list += bn_moving_vars
saver = tf.train.Saver(var_list=var_list, max_to_keep=5)

按照上述写法，即可把μ和σ保存下来，读取模型预测时也不会报错，当然输入参数training=False还是要的。

注意上面有个不严谨的地方，因为我的网络结构中只有bn层包含moving_mean和moving_variance，因此只根据这两个字符串做了过滤，如果你的网络结构中其他层也有这两个参数，但你不需要保存，建议使用诸如bn/moving_mean的字符串进行过滤。

lvedng^_^

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
BN使用方法

本文转载：https://blog.csdn.net/m0_37987687/article/details/80241893 https://blog.csdn.net/heiheiya/article/details/81000756 https://blog.csdn.net/candy_gl/articl...
复制链接

扫一扫

专栏目录