深度学习笔记7-BN

最新推荐文章于 2024-09-03 09:37:00 发布

Carrie_Lei

最新推荐文章于 2024-09-03 09:37:00 发布

阅读量640

点赞数 20

分类专栏：深度学习文章标签：深度学习笔记人工智能

本文链接：https://blog.csdn.net/finly4599/article/details/141402802

版权

深度学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Batch Normalization（BN） 是一种用于加速神经网络训练、提高模型稳定性的方法。它通过在每一层网络中对数据进行标准化，来缓解深层神经网络中的梯度消失和梯度爆炸问题。

原理

在神经网络训练过程中，输入数据的分布可能在每一层发生变化，导致模型训练变得更加困难。BN 的核心思想是在每一层的输出上应用标准化，使其均值为 0，方差为 1，然后再进行进一步的非线性变换（如激活函数的应用）。这样可以减轻参数更新对模型训练造成的不稳定性。

具体来说，BN 通过以下步骤进行操作：

计算均值和方差：对于每个 mini-batch，计算其均值和方差。
$\mu_B = \frac{1}{m} \sum_{i=1}^m x_i$
$\sigma_B^2 = \frac{1}{m} \sum_{i=1}^m (x_i - \mu_B)^2$
其中，( $x_i$ ) 是 mini-batch 中的样本，( m ) 是 batch 的大小。
标准化：将每个样本标准化，使其具有均值为 0，方差为 1 的分布。
$\hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$
其中，( $\epsilon$ ) 是一个很小的数，防止除零错误。
缩放和平移：引入可学习的参数 ( $\gamma$ ) 和 ( $\beta$ )（分别为缩放和平移参数），使网络可以恢复部分模型的表达能力：
$y_i = \gamma \hat{x}_i + \beta$

这里的 ( $\gamma$ ) 和 ( $\beta$ ) 是在训练过程中学习的参数。

优势

加速训练：通过标准化，BN 可以使网络的训练过程更稳定，允许使用更高的学习率，从而加快收敛速度。
减轻梯度消失和梯度爆炸：BN 有效地控制了每一层的输入分布，减轻了梯度消失和梯度爆炸问题，特别是在深层网络中。
正则化效果：BN 对每个 mini-batch 进行标准化，使得每次训练使用的数据分布略有不同，这种扰动具有正则化效果，有助于防止过拟合。
对权重初始值不敏感：由于每一层的输入都被标准化，BN 减轻了网络对权重初始值的敏感性，使得训练更为容易。

局限性

依赖 mini-batch 大小：BN 的性能在很大程度上依赖于 mini-batch 的大小，如果 mini-batch 太小，估计的均值和方差可能不稳定，从而影响训练效果。
训练时间开销：虽然 BN 可以加快收敛，但每次都要计算均值和方差，并进行标准化，增加了训练时间的开销。
在序列模型中的应用：对于 RNN 等序列模型，直接使用 BN 可能会破坏时间序列的相关性。因此，在这些模型中，通常使用其他变种，如 Layer Normalization 或 Batch Renormalization。

实现示例

在 TensorFlow 或 PyTorch 中，可以很方便地使用 BN 层：

TensorFlow:

import tensorflow as tf

model = tf.keras.models.Sequential([
    tf.keras.layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
    tf.keras.layers.BatchNormalization(),
    tf.keras.layers.MaxPooling2D((2, 2)),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.BatchNormalization(),
    tf.keras.layers.Dense(10, activation='softmax')
])

PyTorch:

import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, 3, 1)
        self.bn1 = nn.BatchNorm2d(32)
        self.conv2 = nn.Conv2d(32, 64, 3, 1)
        self.bn2 = nn.BatchNorm2d(64)
        self.fc1 = nn.Linear(9216, 128)
        self.bn3 = nn.BatchNorm1d(128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = nn.ReLU()(x)
        x = self.conv2(x)
        x = self.bn2(x)
        x = nn.ReLU()(x)
        x = nn.MaxPool2d(2)(x)
        x = x.view(-1, 9216)
        x = self.fc1(x)
        x = self.bn3(x)
        x = nn.ReLU()(x)
        x = self.fc2(x)
        return nn.LogSoftmax(dim=1)(x)

总结

Batch Normalization 是深度学习中一个重要的技巧，通过对 mini-batch 数据进行标准化，它能有效提高模型的训练速度和稳定性。虽然 BN 在很多任务中都表现出色，但在一些特定情况下，它可能需要调整或替换为其他的归一化方法。

Carrie_Lei

关注

20
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
深度学习笔记7-BN

BN 的核心思想是在每一层的输出上应用标准化，使其均值为 0，方差为 1，然后再进行进一步的非线性变换（如激活函数的应用）。Batch Normalization 是深度学习中一个重要的技巧，通过对 mini-batch 数据进行标准化，它能有效提高模型的训练速度和稳定性。：BN 的性能在很大程度上依赖于 mini-batch 的大小，如果 mini-batch 太小，估计的均值和方差可能不稳定，从而影响训练效果。：通过标准化，BN 可以使网络的训练过程更稳定，允许使用更高的学习率，从而加快收敛速度。
复制链接

扫一扫