深度学习：正则化策略

最新推荐文章于 2025-04-07 15:52:57 发布

00&00

最新推荐文章于 2025-04-07 15:52:57 发布

阅读量1.1k

点赞数 22

分类专栏：深度学习人工智能文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/Wei_sx/article/details/144980139

版权

人工智能同时被 2 个专栏收录

223 篇文章

订阅专栏

深度学习

82 篇文章

订阅专栏

深度学习中的正则化是一种用于防止模型过拟合的技术。过拟合是指模型在训练集上表现良好，但在未见过的数据（如验证集或测试集）上表现不佳。正则化可以帮助提高模型的泛化能力。以下是几种常见的正则化方法：

1. L1 和 L2 正则化

正则化是机器学习和深度学习中一种强大的技术，用于减轻模型的过拟合现象。L1 正则化和 L2 正则化是最常用的两种正则化方法。

1.1 L1 正则化（Lasso Regression）

定义：L1 正则化通过向损失函数添加所有权重的绝对值的和，促使某些权重变为零，进而实现特征选择（feature selection）。
数学公式：

$L = L_{\text{original}} + \lambda \sum |w_i|$

其中：
         $L_{\text{original}}$ 是原始损失函数（如均方误差）。
         $w_i$ 是模型权重。
         $\lambda$ 是正则化强度的超参数，控制正则化的力度。

效果：L1 正则化会使某些权重变为零，因此它具有特征稀疏化的能力，适合用于高维特征选择的场景。

1.2 L2 正则化（Ridge Regression）

定义：L2 正则化通过向损失函数添加所有权重的平方和，减少权重的大小，鼓励模型找到小的权重值以减小决策边界的复杂度。
数学公式：

$L = L_{\text{original}} + \lambda \sum w_i^2$

其中：
         $L_{\text{original}}$ 是原始损失函数。
         $w_i$ 是模型权重。
         $\lambda$ 是正则化强度的超参数。

效果：L2 正则化会平滑权重的分布，能够减轻过拟合，但不会使权重准确地变为零。

1.3 L1 和 L2 正则化的比较

特性	L1 正则化	L2 正则化
目标	特征选择（稀疏化）	减少参数规模（平滑）
权重更新	一些权重变为零	所有权重通常不为零
计算复杂度	相对简单	计算稍复杂但高效
常用情况	高维稀疏特征	杂项任务，防止过拟合

1.4 使用方法

在 Keras 中，可以通过 `kernel_regularizer` 参数为层添加 L1 或 L2 正则化。以下是如何在 Keras 中实现这两种正则化的方法：

1.4.1 L1 正则化示例

from tensorflow.keras.models import Sequential  
from tensorflow.keras.layers import Dense  
from tensorflow.keras.regularizers import l1  

model = Sequential()  
model.add(Dense(64, activation='relu', input_dim=10, kernel_regularizer=l1(0.01)))  # L1 正则化

14.2 L2 正则化示例

from tensorflow.keras.models import Sequential  
from tensorflow.keras.layers import Dense  
from tensorflow.keras.regularizers import l2  

model = Sequential()  
model.add(Dense(64, activation='relu', input_dim=10, kernel_regularizer=l2(0.01)))  # L2 正则化

1.4.3 L1 和 L2 正则化的组合

有时可以结合 L1 和 L2 正则化，称为 Elastic Net，这种方法可以同时获得稀疏和小权重的效果。

from tensorflow.keras.regularizers import l1_l2  

model = Sequential()  
model.add(Dense(64, activation='relu', input_dim=10, kernel_regularizer=l1_l2(l1=0.01, l2=0.01)))  # Elastic Net

1.5 小结

L1 和 L2 正则化是防止模型过拟合的有效工具，尤其是在特征数量多于样本数或在特征之间存在相关情况下。
选择合适的正则化方法和超参数（如 $\lambda$ ）对模型的性能影响很大。在实践中，可以使用交叉验证来调优这些超参数。

2. Dropout 正则化

Dropout 是一种非常流行且有效的正则化技术，旨在防止深度学习模型的过拟合现象。它通过在训练过程中随机地将一部分神经元“丢弃”来降低模型对特定神经元的依赖，从而提高模型的泛化能力。

2.1 原理

随机丢弃：在每个训练周期中，Dropout 会随机选择一部分神经元（以设定的丢弃比例，例如 20% 或 50%）暂时不参与前向传播和反向传播。这意味着被丢弃的神经元在该次训练中不参与权重更新。

特征学习：通过丢弃神经元，模型不会依赖于特定的神经元，这迫使网络学习更加鲁棒的特征和表示。每次都在使用不同的神经元组合进行训练，使得模型学会从多个角度来解决问题。

预测阶段：在预测阶段，Dropout 不会丢弃任何神经元，而是将所有神经元的输出乘以丢弃概率的补（例如，如果训练时丢弃了 20%，则在预测时输出会乘以 0.8）。这样可以保证模型在预测时的供应输出不会过小。

2.2 数学公式

假设网络的某一层有 $n$ 个神经元，Dropout 在训练时将每个神经元以概率 $p$ 丢弃（保持的概率为 $1-p$ )）。那么某一层的输出 $y_i$ 可以表示如下：

训练时：

$y_i^{(dropout)} = \begin{cases} 0 & \text{with probability } p \\ \frac{y_i}{1-p} & \text{with probability } (1-p) \end{cases}$

其中， $y_i$ 是该神经元未经过 Dropout 处理的输出。

预测时：

所有神经元均参与，输出为 $y_i$ 。因为训练时的输出已经被调整为 $\frac{y_i}{1-p}$ ，所以在预测时不需要增大输出。

2.3 实际应用

在实际应用中，Dropout 通常在全连接层（Dense Layer）后面使用，但也可以在某些卷积层后使用。被丢弃的神经元动态随机选择，因此每次训练的网络结构略有不同，这使得网络在一定程度上形成了集成模型的效果。

2.4 常见的丢弃比例

在实践中，常见的丢弃比例通常是 0.2 到 0.5，取决于模型的复杂性和数据集的大小。小型神经网络或较小的数据集可能在 0.2 左右，而较大的神经网络或大数据集可能允许更高的丢弃比例。

2.5 Keras 中的使用

示例1：

在 Keras 中，使用 Dropout 非常简单，您只需在模型中添加 `Dropout` 层。例如：

from tensorflow.keras.models import Sequential  
from tensorflow.keras.layers import Dense, Dropout  

# 创建一个顺序模型  
model = Sequential()  

# 添加第一层，128个神经元，使用ReLU激活函数  
model.add(Dense(128, activation='relu', input_shape=(input_dim,)))  

# 添加Dropout层，丢弃50%的神经元  
model.add(Dropout(0.5))  

# 添加第二层，64个神经元，使用ReLU激活函数  
model.add(Dense(64, activation='relu'))  

# 再次添加Dropout层，丢弃50%的神经元  
model.add(Dropout(0.5))  

# 添加输出层，数量为类别数，使用Softmax激活函数  
model.add(Dense(num_classes, activation='softmax'))  

# 编译模型  
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

示例2：

# 导⼊相应的库
import numpy as np
import tensorflow as tf
# 定义dropout层,每⼀个神经元有0.2的概率被失活，未被失活的输⼊将按1 /（1-0.2）
layer = tf.keras.layers.Dropout(0.2,input_shape=(2,))
# 定义五个批次的数据 
data = np.arange(1,11).reshape(5,2).astype(np.float32)
# 原始数据进⾏打印 
print(data)
# 进⾏随机失活：在training模式中，返回应⽤dropout后的输出
outputs = layer(data,training=True)
# 打印失活后的结果
print(outputs)

2.6 Dropout 的优缺点

优点

        减少过拟合：有效降低神经网络对训练数据的过拟合能力。
        增强泛化能力：促进模型发现多样化特征，提高在未见数据上的表现。
        简单易用：实现上简单，不需要修改原始网络架构。

缺点

训练时间增加：由于每次训练只使用部分神经元，训练可能需要更多的周期以达到收敛。
不适用于小型数据集：对于小的数据集，Dropout 可能会导致模型欠拟合，尤其是当正则化过强时。

2.7 小结

Dropout 是一种强大而有效的正则化技术，能够提高深度学习模型的性能和泛化能力。通过随机丢弃神经元，Dropout 有助于模型学习更加鲁棒的特征，减少对特定神经元的依赖。它在现代深度学习框架中的实现非常简单，是构建深度神经网络时常用的策略之一。

3. 早停（Early Stopping）

早停（Early Stopping）是一种常用的正则化技术，旨在防止深度学习模型在训练过程中过拟合。通过监控验证集的性能，早停可以在模型性能不再提升时提前结束训练，从而节省计算资源并提高模型的泛化能力。

3.1 原理

监控验证集性能：在每个训练周期（epoch）结束时，计算模型在验证集上的损失或准确率。如果验证性能在一段时间内没有改善，早停机制将触发，停止训练。

避免过拟合：模型在训练集上可能会随着训练轮数的增加而不断提高性能，但在验证集上的性能可能会在达到某个点后下降。早停通过监控这种变化，帮助我们找到最佳的训练轮数，避免模型过拟合。

3.2 早停的实现

早停通常涉及以下几个关键参数：

        监控指标：选择要监控的指标（如验证损失或验证准确率）。
        耐心（patience）：在验证性能没有改善的情况下，允许的最大训练轮数。例如，如果设置耐心为 5，模型在连续 5 个训练周期中没有改善，则停止训练。
        最优模型保存：在训练过程中，保存性能最好的模型，以便在训练结束后使用。

3.3 Keras 中的实现

示例1：

在 Keras 中，可以通过 `EarlyStopping` 回调函数轻松实现早停。以下是一个示例：

from tensorflow.keras.models import Sequential  
from tensorflow.keras.layers import Dense  
from tensorflow.keras.callbacks import EarlyStopping  

# 创建模型  
model = Sequential()  
model.add(Dense(128, activation='relu', input_shape=(input_dim,)))  
model.add(Dense(num_classes, activation='softmax'))  

# 编译模型  
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])  

# 设置早停回调  
early_stopping = EarlyStopping(monitor='val_loss', patience=5, restore_best_weights=True)  

# 训练模型，并应用早停  
model.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=100, batch_size=32, callbacks=[early_stopping])

示例2：

# 导⼊相应的⼯具包
import tensorflow as tf
import numpy as np
# 当连续5个epoch loss不下降则停⽌训练 
callback = tf.keras.callbacks.EarlyStopping(monitor='loss',patience=5,restore_best_weights=True)
# 定义只有⼀层的神经⽹络
model = tf.keras.models.Sequential([tf.keras.layers.Dense(10)])
# 设置损失函数和梯度下降算法 
model.compile(tf.keras.optimizers.SGD(),loss='mse')
# 模型训练
history = model.fit(np.arange(100).reshape(5,20),np.array([0,1,0,1,0]),epochs=10,batch_size=1,verbose=1)
# 打印运⾏的epoch 
len(history.history['loss'])

3.4 参数解释

        monitor：指定要监控的指标，这里使用 `val_loss`（验证损失）。
        patience：设置为 5，表示如果验证损失在 5 个连续的训练周期中没有改善，则停止训练。
        restore_best_weights：设置为 `True`，表示在训练结束后恢复验证集上表现最好的模型权重，而不是最后一次训练的权重。

3.5 优点

        防止过拟合：通过监控验证集性能，早停可以有效防止模型在训练集上过拟合。
        节省计算资源：避免不必要的训练轮数，从而节省计算时间和资源。
        自动选择最佳模型：通过保存最佳权重，确保最终模型的性能最优。

3.6 缺点

依赖验证集：早停的效果依赖于验证集的选择和质量，如果验证集不代表真实数据，可能导致错误的停止。
可能导致欠拟合：如果设置的耐心值过小，模型可能在尚未达到最佳性能时就停止训练，导致欠拟合。

3.7 小结

早停是一种简单而有效的正则化策略，广泛应用于深度学习训练过程中。通过监控验证集的性能，早停可以帮助我们选择最佳的训练轮数，避免过拟合，并节省计算资源。在实际应用中，合理设置监控指标和耐心值是确保早停有效性的关键。

4. Batch Normalization（批量归一化）

Batch Normalization（批量归一化）是一种在深度学习中广泛使用的技术，它通过标准化每一层的输入，来提高模型训练的速度和稳定性，并增强模型的泛化能力。其主要思想是在训练过程中动态调整每一层的激活分布，有助于解决深层网络中的一些常见问题。

4.1 原理

Batch Normalization 通过以下步骤来规范化每层的输出：

计算均值和方差：
在每一个小批量（mini-batch）中，计算当前批次的均值和方差。这代表了当前激活值的分布情况。

标准化：
利用得到的均值和方差将输入进行标准化，让其均值为 0，方差为 1：

$\hat{x} = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}}$

其中， $x$ 是输入， $\mu$ 是当前批次的均值， $\sigma^2$ 是方差， $\epsilon$ 是一个小常数，防止除以零。

缩放与偏移：
标准化后的输出接着通过可学习的缩放参数 $\gamma$ 和偏移参数 $\beta$ 进行线性变换，以恢复网络的表达能力：

$y = \gamma \hat{x} + \beta$

4.2 优点

Batch Normalization 具有许多重要的优点：

加速训练：通过规范化每层的输入，Batch Normalization 能够加速收敛，从而使训练过程变得更高效。

稳定性：标准化有助于消除内部协变量转移（internal covariate shift），使得每一层的输入分布更加稳定，从而减少对权重初始化和学习率的敏感性。

提高泛化能力：通过对每个批次的输入进行标准化， Batch Normalization 对一定程度上的噪声具有鲁棒性，有助于提高模型的泛化性能。

减少需要的正则化：在许多情况下，使用 Batch Normalization 可以减少对其他正则化技术的依赖，例如 Dropout。

4.3 使用方法

在 Keras 中，使用 Batch Normalization 非常简单，可以直接通过 `BatchNormalization` 层来实现。以下是使用 Batch Normalization 的示例：

from tensorflow.keras.models import Sequential  
from tensorflow.keras.layers import Dense, BatchNormalization  

# 创建一个顺序模型  
model = Sequential()  

# 添加第一层，128个神经元，使用ReLU激活函数  
model.add(Dense(128, activation='relu', input_shape=(input_dim,)))  
model.add(BatchNormalization())  

# 添加第二层，64个神经元，使用ReLU激活函数  
model.add(Dense(64, activation='relu'))  
model.add(BatchNormalization())  

# 添加输出层  
model.add(Dense(num_classes, activation='softmax'))  

# 编译模型  
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

4.4 何时使用Batch Normalization

Batch Normalization 可以应用于多种类型的网络，但通常在以下情况下效果最佳：

深层网络：在深层神经网络（如 ResNet、Inception 等）中，使用 Batch Normalization 可以显著提高训练速度和稳定性。

激活函数前：通常将 Batch Normalization 添加在激活函数之前，但也可以放在激活函数之后，这取决于具体的任务需求。

小批量训练时：Batch Normalization 在小批量训练中表现良好，因此在训练时使用大批量的情况下，可能需要微调超参数以避免不均匀的均值和方差。

4.5. 注意事项

训练和预测阶段的不同：需要注意的是，在训练和推理（预测）过程中 Batch Normalization 的行为不同。在训练阶段，均值和方差以当前批次为基础计算，而在推理阶段使用训练过程中计算的移动平均均值和方差。

小批量问题：如果批量大小过小，可能会导致不稳定的状态，因为均值和方差的估计精度不足。因此，Batch Normalization 对于小批量训练可能效果不佳。

性能开销：虽然 Batch Normalization 加速了模型的收敛，但在前向传播和反向传播中需要额外的计算开销，因此在实际应用中需要权衡。

4.6 小结

Batch Normalization 是一种强大的技术，它通过标准化层的输入，有效提高了深度学习模型的训练效率和稳定性。其简单易用的特性使得它成为了现代深度学习模型的标准组成部分，广泛用于各种综合性的神经网络。

5.其他正则化策略

5.1 数据增强

通过对训练数据进行变换（如旋转、平移、缩放、翻转等）来生成新样本，增加数据的多样性。这有助于提高模型的泛化能力。

使用方法：
在 Keras 中，可以使用 `ImageDataGenerator` 进行图片数据的增强：

from tensorflow.keras.preprocessing.image import ImageDataGenerator  

datagen = ImageDataGenerator(rotation_range=40, width_shift_range=0.2, height_shift_range=0.2)