避免局部最优解的方法

纪怽ぅ

已于 2024-10-25 16:17:28 修改

阅读量1.4k

点赞数 21

分类专栏：优化算法文章标签：机器学习 python 算法数据分析人工智能

于 2024-10-25 15:46:07 首次发布

本文链接：https://blog.csdn.net/qq_56683019/article/details/143235784

版权

优化算法专栏收录该内容

7 篇文章

订阅专栏

1. 学习率调整策略

2. 使用更复杂的优化器

3. 添加噪声或正则化项

4. 使用更大的 Batch Size 或更高的动量

5. 多次随机初始化

6. 重新设计模型结构

有几种常见的方法可以帮助模型避免陷入局部最优解，尤其是在深度学习和优化过程中。这里有一些行之有效的方法：

1. 学习率调整策略

自适应学习率调度：像 ReduceLROnPlateau 这样的调度器会在损失不再显著变化时降低学习率，从而帮助模型跳出可能的局部最优解。

ReduceLROnPlateau：前面提到的调度器，可以动态降低学习率，帮助模型在训练时突破局部最优。

import torch.optim as optim

optimizer = optim.Adam(model.parameters(), lr=0.01)
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.5, patience=5, min_lr=1e-5, verbose=True)

for epoch in range(epochs):
    # Training code
    val_loss = validate(model, val_loader)
    scheduler.step(val_loss)  # 根据验证损失调整学习率

Cosine Annealing with Warm Restarts：周期性地将学习率重新设置为初始值，并逐步降低。

scheduler = optim.lr_scheduler.CosineAnnealingWarmRestarts(optimizer, T_0=10, T_mult=2)

for epoch in range(epochs):
    # Training code
    scheduler.step()  # 每个 epoch 调整一次

周期性学习率 (Cyclical Learning Rate)：让学习率在一定范围内周期性波动，而不是一直减小，可以帮助模型跳出局部最优解。

import torch
import torch.optim as optim
import torch.nn as nn

# 假设我们有一个简单的神经网络
model = nn.Sequential(nn.Linear(10, 50), nn.ReLU(), nn.Linear(50, 1))
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 使用 CyclicLR 实现周期性学习率
scheduler = optim.lr_scheduler.CyclicLR(optimizer, base_lr=0.001, max_lr=0.1, step_size_up=10, mode="triangular")

for epoch in range(50):
    # 假设有损失计算 loss
    loss = torch.randn(1)  # 这里仅为模拟
    loss.backward()
    optimizer.step()
    scheduler.step()  # 更新学习率

    print(f"Epoch {epoch+1}, LR: {scheduler.get_last_lr()[0]}")

在 CyclicLR 中，base_lr 是最低学习率，max_lr 是最高学习率，step_size_up 是学习率上升的步数。周期性学习率使模型在局部最优附近仍能有一定的探索性。

学习率热重启 (Learning Rate Warm Restarts)：定期将学习率重置为较大的值，然后逐步减小，能让模型在一定程度上探索新的解空间。

2. 使用更复杂的优化器

像 Adam、RMSprop 这样的自适应优化器能够自动调整学习率，并在一定程度上避免局部最优解。
更高级的优化方法，比如 AdamW 和 Lookahead，可以在模型优化过程中提高稳定性，增加全局搜索能力。
- AdamW：结合权重衰减的 Adam 优化器，能更好地避免局部最优。
```
optimizer = optim.AdamW(model.parameters(), lr=0.001, weight_decay=1e-5)
```
- Lookahead Optimizer：Lookahead 可以搭配任意优化器，如 AdamW 或 SGD，来提高模型性能。
```
from torch.optim import Adam
from torch_optimizer import Lookahead

base_optimizer = Adam(model.parameters(), lr=0.001)
optimizer = Lookahead(base_optimizer, k=5, alpha=0.5)  # 使模型从多方向接近全局最优
```

3. 添加噪声或正则化项

加入噪声：在训练数据或梯度中添加少量噪声（如使用 dropout 正则化），能帮助模型避免陷入局部最优解。

添加 Dropout：在网络中加入 Dropout，可以帮助防止模型陷入局部最优。

import torch.nn as nn

class SimpleNet(nn.Module):
    def __init__(self):
        super(SimpleNet, self).__init__()
        self.fc1 = nn.Linear(128, 64)
        self.dropout = nn.Dropout(0.5)  # 0.5 概率丢弃
        self.fc2 = nn.Linear(64, 10)

    def forward(self, x):
        x = self.dropout(torch.relu(self.fc1(x)))
        return self.fc2(x)

梯度噪声：人为加入噪声，提升模型的全局探索能力。

for epoch in range(epochs):
    optimizer.zero_grad()
    loss = model(input).sum()
    loss.backward()
    for param in model.parameters():
        param.grad += 0.01 * torch.randn_like(param.grad)  # 增加噪声
    optimizer.step()

权重衰减：在 AdamW 中使用权重衰减等正则化方法，能够让模型不容易收敛到局部最优。

4. 使用更大的 Batch Size 或更高的动量

增大批量大小：更大的 batch size 可以帮助优化器看到全局的损失变化趋势，有助于跳出局部最优。
```
train_loader = torch.utils.data.DataLoader(dataset, batch_size=512, shuffle=True)
```
动量优化：使用带有动量的优化器（如带有较高 momentum 参数的 SGD），可以帮助模型在损失平面上找到更好的路径。
```
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)
```
这里的 momentum=0.9 表示更新步长中包含了前一步的 90%，相当于在解空间中产生一定惯性，从而帮助跳出局部最优解。

5. 多次随机初始化

对模型进行多次随机初始化训练，从不同的起点开始进行优化，能避免从某个单一初始点进入局部最优。最终选择损失最小的模型，通常可以达到更好的性能。

best_model = None
best_loss = float('inf')

for i in range(5):  # 5 次初始化
    model = MyModel()  # 重新初始化模型
    optimizer = optim.Adam(model.parameters(), lr=0.001)
    
    for epoch in range(epochs):
        # Training code
        loss = validate(model, val_loader)
    
    if loss < best_loss:
        best_loss = loss
        best_model = model  # 保存最优模型

6. 重新设计模型结构

有时，局部最优可能是由于模型容量不足导致的，增加网络的层数、宽度或选择更深的架构可以提高模型的学习能力，让其更容易找到全局最优解。

例如 ResNet 的简单实现：

import torch.nn as nn
import torch.nn.functional as F

class BasicBlock(nn.Module):
    def __init__(self, in_channels, out_channels, stride=1):
        super(BasicBlock, self).__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1)
        self.bn2 = nn.BatchNorm2d(out_channels)

    def forward(self, x):
        identity = x
        out = F.relu(self.bn1(self.conv1(x)))
        out = self.bn2(self.conv2(out))
        out += identity
        return F.relu(out)

class SimpleResNet(nn.Module):
    def __init__(self):
        super(SimpleResNet, self).__init__()
        self.layer = BasicBlock(3, 16)
        self.fc = nn.Linear(16, 10)

    def forward(self, x):
        x = self.layer(x)
        x = torch.flatten(x, 1)
        return self.fc(x)

这些方法都可以根据不同的任务和数据进行调整和组合，以便模型在更广的解空间中找到全局最优解。