pytorch 优化器采取不同学习率

最新推荐文章于 2024-09-05 22:52:10 发布

不想待在银河系

最新推荐文章于 2024-09-05 22:52:10 发布

阅读量798

点赞数

分类专栏： Python 文章标签： pytorch

原文链接：https://github.com/PyTorchLightning/pytorch-lightning/issues/2005

版权

Python 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

该博客探讨了在深度学习模型中如何通过函数is_backbone()区分骨干网络参数和其它参数，实现不同学习率的优化器设置。通过使用AdamW优化器并分组参数，解决了optimizer只能优化Tensor类型的错误，确保了训练过程的稳定性。

摘要由CSDN通过智能技术生成


def configure_optimizers(self):
    params = list(model.named_parameters())

    def is_backbone(n): return 'bert' in n

    grouped_parameters = [
        {"params": [p for n, p in params if is_backbone(n)], 'lr': args.lr},
        {"params": [p for n, p in params if not is_backbone(n)], 'lr': args.lr * 100},
    ]

    optimizer = torch.optim.AdamW(
        grouped_parameters, lr=args.lr, weight_decay=0
    )

    return optimizer