浅谈tf.keras.layers.BatchNormalization（批量标准化）定义，原理，实现

最新推荐文章于 2024-07-26 13:24:37 发布

kaiaaaa

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量1.1k

点赞数 11

分类专栏：深度学习文章标签： keras 人工智能深度学习 tensorflow

本文链接：https://blog.csdn.net/kaiaaaa/article/details/137500908

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

浅谈tf.keras.layers.BatchNormalization（批量标准化）

1.什么是tf.keras.layers.BatchNormalization()？

tf.keras.layers.BatchNormalization() ：是 TensorFlow 中 Keras API 提供的一个层，用于实现批量标准化（Batch Normalization）。这个层通常被添加在卷积层或全连接层之后，激活函数之前。批量标准化是一种在深度学习模型中广泛使用的技术，它可以提高模型的训练速度和稳定性，同时减少过拟合的风险。

具体来说，批量标准化层在训练期间对每个小批量（mini-batch）的输入数据进行标准化，使其具有适当的尺度（scale）和偏移（shift）。这有助于模型更好地学习输入数据的特征，尤其是在深度神经网络中，当数据的分布随着层的深入而发生变化时（这种现象被称为内部协变量偏移）。

2.为什么要进行批量标准化？

在深度神经网络中，随着神经网络层次的加深，数据的分布也会随着层的深入而发生变化（这种现象被称为内部协变量偏移）。

内部协变量偏移（Internal Covariate Shift）在深度神经网络中是一个常见的问题。它产生的原因主要在于神经网络中前面层的参数变化会导致后面层接收的数据分布发生变化。输入分布的变化指的是在训练过程中，随着网络参数的更新，每一层接收到的输入数据的统计特性（如均值、方差等）发生了变化。这种变化是逐层累积的，从输入层开始，一直到输出层。

具体来说，当使用随机梯度下降等优化算法训练网络时，每次参数更新都会改变网络中各层的输入分布。这主要是因为网络的参数（权重和偏置）在训练过程中是不断调整的。具体的原因有：

权重更新：在训练过程中，优化算法（如SGD）会根据损失函数的梯度来更新每一层的权重。这意味着每一层的权重都会随着训练的进行而不断变化。由于神经网络的输出是输入的函数（通过权重和激活函数进行变换），权重的任何变化都会导致输出分布的改变。
前向传播：神经网络中的每一层都依赖于前一层的输出作为输入。因此，当前一层的权重发生变化时，其输出（即下一层的输入）也会发生变化。这种变化会逐层传递，导致整个网络中各层的输入分布都在不断变化。
激活函数：大多数神经网络层都使用非线性激活函数，如ReLU或Sigmoid。这些函数对输入数据进行非线性变换，进一步改变了数据的分布。当输入数据的分布发生变化时，经过激活函数后的输出分布也会相应变化。
小批量训练：在随机梯度下降中，通常使用小批量（mini-batch）数据进行参数更新，而不是使用整个数据集。由于每个小批量的数据分布都可能不同，这进一步加剧了各层输入分布的不稳定性。

随着网络层数的加深，这种分布变化会变得更加明显，就像一栋高楼，低楼层发生一个较小的偏移，都会导致高楼层较大的偏移。这种连续的变化会导致网络中的参数需要不断适应新的数据分布，从而影响了网络的训练速度和稳定性。

为了解决这个问题，研究者们提出了批量标准化（Batch Normalization）等方法。批量标准化通过在每一层之后加入标准化操作，使得每一层的输出都具有适当的尺度和偏移，从而减小了内部协变量偏移的影响。这样做不仅可以加速模型的训练过程，还可以提高模型的泛化能力。

因此，内部协变量偏移主要是由于神经网络在训练过程中参数更新导致的各层输入数据分布的变化所产生的。通过采用适当的技术手段，如批量标准化，可以有效地缓解这个问题，提高神经网络的性能。

3.实现步骤

计算小批量均值：对于每一个输入特征，批量标准化层首先计算当前小批量数据的均值。这通常涉及对输入张量沿批量维度（batch dimension）进行平均操作。
计算小批量方差：接着，批量标准化层计算当前小批量数据的方差。方差是输入数据与其均值之差的平方的平均值，同样是在批量维度上进行计算。
标准化：使用上面计算得到的均值和方差，对输入数据进行标准化。标准化操作是将每个输入值减去均值，然后除以标准偏差（方差的平方根），从而得到具有零均值和单位方差的输出。
缩放和偏移：标准化后的输出可能限制了神经网络的表现能力，因为每个特征都被限制在了相同的尺度上。为了解决这个问题，批量标准化层引入了两个可学习的参数：缩放因子（scale）和偏移量（shift，或称为bias）。这两个参数在训练过程中被学习，以允许模型恢复一些原始输入特征的表示能力。
应用非线性激活函数（可选）：在某些情况下，批量标准化层之后可能会紧跟一个非线性激活函数，如ReLU。这取决于具体网络架构的设计。

4.代码实现

使用 tf.keras.layers.BatchNormalization() 可以很容易地将批量标准化层添加到Keras 模型中。例如：

model = tf.keras.Sequential()
model.add(tf.keras.layers.Conv2D(128,(3,3),input_shape=(256,256,3)))
model.add(tf.keras.layers.BatchNormalization())
model.add(tf.keras.layers.Activation('relu'))

model.add(tf.keras.layers.GlobalAveragePooling2D())

model.add(tf.keras.layers.Dense(256))
model.add(tf.keras.layers.BatchNormalization())
model.add(tf.keras.layers.Activation('relu'))

model.add(tf.keras.layers.Dense(1,activation='sigmoid'))