优化器（梯度下降 + Momentum）

m0_48923489

已于 2024-03-19 20:38:26 修改

阅读量727

点赞数 19

文章标签：人工智能机器学习深度学习

于 2024-03-19 20:14:08 首次发布

本文链接：https://blog.csdn.net/m0_48923489/article/details/136853837

版权

本文介绍了动量梯度下降算法，一种改进的优化技术，通过引入动量概念加速机器学习模型尤其是神经网络的训练，解决收敛慢和局部最小值问题。文章详细阐述了算法原理、公式以及Python实现，并探讨了其优点如加速收敛和减少震荡，以及可能的缺点如超参数敏感和可能错过最小值。

摘要由CSDN通过智能技术生成

动量梯度下降（Momentum Gradient Descent）是一种优化算法，用于训练机器学习模型，特别是神经网络模型。它是在标准梯度下降算法的基础上引入了动量概念，以解决梯度下降中的一些问题，例如局部最小值、鞍点等。

提出背景：

动量梯度下降算法的提出是为了解决传统梯度下降算法中的一些问题。

在高度曲折的损失函数表面上的震荡
收敛速度缓慢等。
通过引入动量的概念，可以在一定程度上加速收敛，并且有助于跳出局部最小值。

理论：

动量梯度下降的核心思想是引入动量因子，使得更新方向不仅取决于当前梯度，还考虑了之前更新方向的影响。这样可以在一定程度上平滑更新路径，加速收敛。

公式

While 条件：
- $\leftarrow \nabla_{\theta_{k-1}} L(\theta)$ # 计算梯度
- $w_k = \alpha w_{k-1} + (1 - \alpha) g$ # 计算动量
- $\theta_{k} = \theta_{k-1} - \eta w_k$ # 更新参数

$\theta_{k-1}$ 是第k-1步的模型参数向量。
$\nabla L(\theta_{k-1})$ 是损失函数 $L$ 对参数 $\theta_{k-1}$ 的梯度。
$\eta$ 是学习率。
$\alpha$ 是动量参数，通常取值在 0 到 1 之间，决定了历史梯度对当前更新的影响程度。
$w_k$ 是动量，表示历史梯度的加权累积。

代码示例

下面是一个简单的 Python 代码示例，演示了如何使用动量梯度下降算法来训练一个简单的线性回归模型：

import numpy as np

def momentum_gradient_descent(params, grads, velocities, lr=0.01, momentum=0.9):
    for param, grad, velocity in zip(params, grads, velocities):
        velocity[:] = momentum * velocity + lr * grad
        param[:] -= velocity