【机器学习】优化器/SAM

LOST P

已于 2024-09-05 17:04:59 修改

阅读量927

点赞数 14

分类专栏：机器学习文章标签：机器学习人工智能算法

于 2024-09-05 17:04:49 首次发布

本文链接：https://blog.csdn.net/fzy2003/article/details/141935110

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

损失函数与优化器

在机器学习中，优化器是用于更新和优化模型参数（如神经网络中的权重和偏置）的算法，即根据损失函数的梯度信息，指导模型参数的更新，使其逐步逼近最佳状态，从而达到更高的预测准确性或泛化能力。

损失函数（例如均方误差、交叉熵等）用于衡量模型预测结果与实际值之间的差异。
优化器的任务是通过不断调整模型参数，使损失函数的值逐渐降低，达到最小化的效果。

1. 优化器的工作原理

优化器**通常基于梯度下降（Gradient Descent）**或其变体来更新模型参数。核心思路是：

计算损失函数相对于模型参数的梯度：这反映了模型参数如何影响损失值。
更新参数：沿着梯度的反方向调整参数，使损失函数的值逐渐减小。

梯度下降的数学公式：
$\theta = \theta - \alpha \cdot \nabla_\theta J(\theta)$
其中：

$\theta$ 是模型参数，
$\alpha$ 是学习率（即每次更新的步长），
$\nabla_\theta J(\theta)$ 是损失函数 $J(\theta)$ 对参数的梯度。

2. 常见的优化器类型

优化器类型	特点
梯度下降（GD）	每次迭代使用整个训练集计算梯度，更新参数，适用于小型数据集，计算开销较大。
随机梯度下降（SGD）	每次迭代使用一个训练样本计算梯度，更新参数，计算速度快，但梯度波动较大。
小批量梯度下降（Mini-batch GD）	每次迭代使用一部分训练数据计算梯度，平衡了计算效率和梯度稳定性。
动量优化器（Momentum Optimizer）	在梯度下降基础上添加动量，累积之前的梯度方向，减少震荡，加速收敛。
Adam 优化器（Adam）	结合动量和自适应学习率调整，适应不同参数的梯度大小，优化过程更加稳定和高效。

3. SAM优化器

Sharpness-Aware Minimization (SAM) 是一种相对较新的优化方法，它与传统优化器（如 SGD、Adam）相比有一些关键的不同。其核心目标不仅仅是找到最小化损失函数的解，还要找到对小扰动具有鲁棒性的解，从而提高模型的泛化能力。

SAM 不仅进行一次简单的梯度更新，它的更新分为两步：
1. 第一步（first step）：在参数的当前位置，沿着梯度方向进行微小的扰动，使参数移动到一个局部最大值（“攀登”到参数空间的局部最高点）。
2. 第二步（second step）：在进行扰动后，重新计算梯度，并返回到原始参数位置，进行常规的梯度更新。这个过程确保模型不仅适应当前的梯度方向，还考虑了对模型参数附近小扰动的鲁棒性。

SAM 的更新策略可以理解为一种“防御性”的更新：在更新前，它先试探性的移动到一个参数空间的边界位置，确保模型不会因为局部的波动而变得不稳定。