深度学习自学笔记九：优化算法

最新推荐文章于 2024-09-18 20:53:51 发布

ironmao

最新推荐文章于 2024-09-18 20:53:51 发布

阅读量93

点赞数

文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/m0_71721954/article/details/133611847

版权

本文详细介绍了梯度下降的几种变种，如mini-batch梯度下降、动量梯度下降、RMSprop和Adam优化算法，强调了学习率在这些方法中的作用。Adam算法结合了动量和RMSprop，具有自适应学习率的优势。

摘要由CSDN通过智能技术生成

一、mini-batch梯度下降法

小批量梯度下降（mini-batch gradient descent）是一种梯度下降法的变种，用于优化机器学习模型的参数。在传统的梯度下降中，每个训练样本都会计算出一个梯度，并根据该梯度对参数进行更新。而在小批量梯度下降中，每次迭代时，我们会选择一个固定大小的小批量样本集合，计算出该集合上的平均梯度，并使用该梯度来更新模型的参数。

具体步骤如下：

1. 将训练数据划分为多个小批量（mini-batches），每个小批量包含一组训练样本。

2. 对于每个小批量，计算其上的损失函数并求取梯度。

3. 对于每个参数，根据小批量的梯度和学习率更新参数值。

4. 重复步骤2和3，直到达到预设的迭代次数或收敛条件。

相比于传统的梯度下降，小批量梯度下降有以下优点：

1. 计算效率高：小批量梯度下降可以利用矩阵运算的并行性，加快梯度计算速度。

2. 内存消耗较低：每次只计算一个小批量的梯度，节省内存消耗。

3. 稳定性更好：相比于随机梯度下降（SGD），小批量梯度下降更新频率较低，更新方向更加稳定。

然而，小批量梯度下降也存在一些缺点。

由于每个批量的样本数量限制，可能会导致更新的方向存在一定的噪声，从而影响模型的收敛速度和性能。另外，对于不同大小的批量，学习率的设置也需要特别考虑。

选择合适的小批量大小是一个重要的问题。通常情况下，小批量大小的选择取决于训练数据集的大小和计算资源的限制。一般来说，小批量大小可以是几十到几千个样本。较大的批量可以提供更精确的梯度估计，但计算开销较大；较小的批量可以加快更新速度，但梯度估计可能存在较大的方差。

二、动量梯度下降法

动量梯度下降法（Momentum Gradient Descent）是一种优化算法，用于加速梯度下降的收敛过程，并在训练过程中减小震荡。

在传统的梯度下降中，每个参数的更新仅依赖于当前的负梯度和学习率。而在动量梯度下降中，我们引入了一个额外的变量，称为动量（momentum）。动量可以看作是模拟物理世界中的惯性，它记录了之前的梯度方向，并在更新时保持一定的方向。

具体步骤如下：

1. 初始化模型的参数和动量变量。

2. 对于每个训练样本，计算其上的梯度。

3. 更新动量变量：将当前梯度与动量变量相结合，得到新的动量变量。

4. 更新参数：根据新的动量变量和学习率，更新模型的参数。

5. 重复步骤2~4，直到达到预设的迭代次数或收敛条件。

动量梯度下降的关键在于动量变量的更新方式。常见的动量更新规则为：

velocity = momentum * velocity + learning_rate * gradient parameter = parameter - velocity

其中，velocity表示动量变量，momentum表示动量系数（通常取值为0.9或0.99），learning_rate表示学习率，gradient表示当前样本的梯度，parameter表示模型参数。

动量梯度下降的优点包括：

1. 加速收敛：动量的引入可以在训练初期加快参数更新速度，有助于快速逼近全局最优解。

2. 减小震荡：动量可以减小参数更新的方差，减少震荡现象，从而使模型更加稳定。

当动量系数设置得过大时，可能会导致参数在局部最小值附近来回振荡。同时，动量可能会使模型在参数空间中“越过”最优点，导致收敛不及预期。因此，在实践中，选择合适的动量系数是一个需要调节的超参数。

三、RMsprop

RMSprop（Root Mean Square Propagation）是一种优化算法，用于梯度下降的参数更新。它是Adam优化算法的一种变体。

RMSprop 的核心思想是自适应地调整学习率，以便在训练过程中更好地处理梯度的变化。相比于传统的梯度下降方法，RMSprop 通过平滑梯度的历史信息来调整学习率，从而更有效地更新模型参数。

具体步骤如下：

1. 初始化模型参数和梯度累积变量。

2. 对于每个训练样本，计算其上的梯度。

3. 更新梯度累积变量：将当前梯度的平方按指数衰减平均，并加入到梯度累积变量中。

4. 更新参数：根据梯度累积变量和学习率，更新模型参数。

5. 重复步骤2~4，直到达到预设的迭代次数或收敛条件。

RMSprop 的梯度累积变量更新规则如下：

gradient_accumulation = decay_rate * gradient_accumulation + (1 - decay_rate) * gradient^2

其中，`gradient_accumulation`表示梯度累积变量，`decay_rate`表示衰减率（通常取值为0.9），`gradient`表示当前样本的梯度。

参数更新规则如下：

parameter = parameter - learning_rate * gradient / (sqrt(gradient_accumulation) + epsilon)

其中，`learning_rate`表示学习率，`epsilon`是一个小的常数（通常取值为10^-8），用于避免除零错误。

RMSprop 的优点包括：

1. 自适应学习率：通过累积梯度的平方来自适应地调整学习率，可以更好地处理不同参数的变化情况。

2. 减小学习率的震荡：RMSprop 使用了梯度累积变量的平均值，可以使学习率在训练过程中更加稳定，减少震荡现象。

当学习率设置得过大时，可能会导致参数在局部最小值附近来回振荡。此外，RMSprop 对于具有不同尺度的参数可能表现不佳，这引入了后续改进算法如Adam的发展。

四、Adam优化算法

Adam（Adaptive Moment Estimation）是一种基于梯度下降的优化算法，结合了动量梯度下降和RMSprop的思想。它被广泛应用于深度学习中，能够自适应地调整学习率，并加速收敛过程。

Adam 算法的核心思想是在参数更新时综合考虑梯度的一阶矩估计（均值）和二阶矩估计（方差）。具体来说，Adam 维护了两个变量：动量变量（momentum）和梯度累积变量（gradient accumulation）。

算法步骤如下：

1. 初始化模型参数、动量变量和梯度累积变量。

2. 对于每个训练样本，计算其上的梯度。

3. 更新动量变量：将当前梯度与动量变量相结合，得到新的动量变量。

4. 更新梯度累积变量：将当前梯度的平方按指数衰减平均，并加入到梯度累积变量中。

5. 根据动量变量和梯度累积变量调整梯度的一阶矩估计和二阶矩估计。

6. 更新参数：根据调整后的梯度一阶矩估计和二阶矩估计，以及学习率，更新模型参数。

7. 重复步骤2~6，直到达到预设的迭代次数或收敛条件。

Adam 的参数更新规则如下：

m = beta1 * m + (1 - beta1) * gradient

v = beta2 * v + (1 - beta2) * gradient^2

m_hat = m / (1 - beta1^t)

v_hat = v / (1 - beta2^t)

parameter = parameter - learning_rate * m_hat / (sqrt(v_hat) + epsilon)

其中，`m`是动量变量，`v`是梯度累积变量，`beta1`和`beta2`是衰减率（一般取0.9和0.999），`learning_rate`是学习率，`t`是当前迭代次数，`epsilon`是一个小的常数（通常取值为10^-8），用于避免除零错误。

Adam 的优点包括：

1. 自适应学习率：通过动态调整梯度的一阶矩估计和二阶矩估计，能够自适应地调整学习率，适应不同参数的变化情况。

2. 加速收敛：Adam 综合了动量和RMSprop的优点，可以加快梯度下降的收敛速度，并具有较好的性能表现。

在初始阶段，由于动量和梯度累积变量的初始化为0，可能会导致参数更新过于激进。此外，对于不同尺度的参数，Adam 的表现可能会受到影响。