模型训练——优化器Optimizer的选择

最新推荐文章于 2024-07-14 14:18:36 发布

想要躺平的一枚

最新推荐文章于 2024-07-14 14:18:36 发布

阅读量347

点赞数

分类专栏： AI图像算法文章标签：人工智能

本文链接：https://blog.csdn.net/qq_43199575/article/details/134306281

版权

AI图像算法专栏收录该内容

21 篇文章 13 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了三种常见的深度学习优化器：SGD、Adam和AdamW。SGD实现简单，但学习率选择和局部最优问题需要注意。Adam引入动量和自适应学习率，收敛速度快，但可能过拟合。AdamW是Adam的改进版，解决了过拟合问题，通过分离权重衰减来优化权重参数。选择优化器应根据任务和模型特性来决定。

摘要由CSDN通过智能技术生成

前言

目前，深度学习领域，使用最广泛的优化器种类可分成：SGD和Adam

一、SGD

SGD —— 随机梯度下降。是一种最为常见、最简单的梯度下降算法，有些书籍还将其分为BGD、SGD、MBGD，分别为批量梯度下降算法、随机梯度下降算法、小批量梯度下降算法。BGD在训练的时候选用所有的训练集进行计算，SGD在训练的时候只选择一个数据进行训练，而MBGD在训练的时候只选择小部分数据进行训练。在模型训练时，都是加载一个批次batch的图片，所以实际上使用的是小批量梯度下降，但大多数文章都是使用SGD这个词来代替。

优点：实现简单，收敛稳定。

存在问题：
（1）学习率的选择：学习率过小导致收敛速度过慢，需要迭代多次，要求计算资源多；过大又会跳变，跳过极值点。

（2）容易陷入局部最优：在梯度下降时，在 x 方向上是一个最小值点，但是它在另一个方向上是局部最大值点，并且，如果它沿着 x 方向变得更平坦的话，梯度下降会在 x 轴振荡并且不能继续根据 y 轴下降，这就会给我们一种已经收敛到最小值点的错觉。（但这个问题可以设置momentum来缓解，这也是大多数论文中提到的，pytorch的SGD优化器中，momentum=0.9，weight decay=0.0005）

二、Adam

Adam是改进的SGD，它加入了更新的动量和自适应的学习率，可以帮助更快地收敛。

优点：收敛速度快；超参数具有很好的解释性，且通常无需调整或仅需很少的微调。

存在问题：可能会对前期出现的特征过拟合，后期才出现的特征很难纠正前期的拟合效果。后期Adam的学习率太低，影响了有效的收敛。

三、AdamW

Adam 虽然收敛速度快，但没能解决参数过拟合的问题。后续提出的AdamW是对Adam的改进，它将权重衰减与梯度更新分开处理。具体来说，权重衰减只应用于权重参数，而不应用于偏置参数。这是通过在损失函数中添加一个额外的L2正则化项来实现的，而不是直接应用于梯度更新。这有助于避免权重衰减对偏置参数的不必要影响，因此可以提高模型的训练效果。