pytorch:余弦退火学习策略和warmup_warm-up + cos退火-CSDN博客

本文链接：https://blog.csdn.net/qq_39506862/article/details/130893122

warmup

深度学习中的“warmup”是指在模型训练的初始阶段，逐渐增加学习率的过程。它的作用主要有以下几个方面：

加速模型收敛：在训练开始时，学习率通常设置得较小，这样可以保证模型在初始阶段不会过度拟合，同时也减少了训练过程中的震荡。但是，如果学习率过低，模型训练的速度会较慢。通过warmup，可以在训练开始时逐渐增加学习率，加速模型的收敛过程。
提高模型的泛化能力：研究表明，在训练的早期阶段，模型更容易被错误的样本所干扰。通过warmup，可以逐渐增加学习率，让模型更加关注当前的样本，减少对过去样本的依赖，从而提高模型的泛化能力。
避免过拟合：在训练模型时，学习率过高可能会导致模型过拟合。通过warmup，可以在训练开始时逐渐增加学习率，让模型更加平滑地学习数据，减少过拟合的风险。

总之，warmup是一种有效的训练策略，可以加快模型收敛速度，提高泛化能力，避免过拟合的风险。

余弦退火学习策略和warmup代码实现

以下是实现余弦退火学习策略和warmup的示例代码：

import math
import torch
from torch.optim.lr_scheduler import LambdaLR


class CosineAnnealingWarmUpRestarts(LambdaLR):
    def __init__(self, optimizer, T_0, T_mult=1, eta_max=0.1, T_warmup=0, last_epoch=-1):
        self.T_0 = T_0
        self.T_mult = T_mult
        self.eta_max = eta_max
        self.T_warmup = T_warmup
        self.cycle_count = 0
        self.cycle_iterations = 0
        self.total_iterations = 0
        super().__init__(optimizer, self.lr_lambda, last_epoch)

    def get_lr(self,):
        return [group['lr'] for group in self.optimizer.param_groups]

    def lr_lambda(self, step):
        if self.total_iterations == 0 or step == 0:
            return 1.0
        elif step <= self.T_warmup:
            return step / self.T_warmup
        else:
            step = step - self.T_warmup
            cycle_length = self.T_0 * (self.T_mult ** self.cycle_count)
            if step >= cycle_length:
                self.cycle_count += 1
                self.cycle_iterations = 0
                self.T_0 *= self.T_mult
                return self.eta_max
            else:
                self.cycle_iterations += 1
                return 0.5 * (math.cos(math.pi * self.cycle_iterations / cycle_length) + 1) * self.eta_max

        self.total_iterations += 1
        return lr_lambda

接下来是示例用法：

## 定义优化器和其它超参数
optimizer = torch.optim.Adam(net.parameters(), lr=1e-3)
T_0 = 100
T_mult = 2
eta_max = 0.1
T_warmup = 10

## 使用CosineAnnealingWarmUpRestarts
scheduler = CosineAnnealingWarmUpRestarts(optimizer, T_0=T_0, T_mult=T_mult, eta_max=eta_max, T_warmup=T_warmup)

## 训练
for epoch in range(N_EPOCHS):
  train_loss = 0.0
  net.train()
  for i, (inputs, targets) in enumerate(train_loader):
    optimizer.zero_grad()
    outputs = net(inputs)
    loss = criterion(outputs, targets)
    loss.backward()
    optimizer.step()
    
    train_loss += loss.item()
    scheduler.step()