机器学习：优化方法

阿狸轰

于 2023-11-21 10:59:02 发布

阅读量307

点赞数

分类专栏：机器学习文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/Alaskan_Husky/article/details/134524105

版权

机器学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

以下是一些常用的最优化方法，它们在机器学习和深度学习中经常被应用：

梯度下降法 (Gradient Descent):

梯度下降法是机器学习中常用的优化算法，用于最小化（或最大化）一个损失函数。以下是梯度下降法的基本原理和步骤：

目标函数： 假设有一个目标函数（损失函数），通常表示为 $J(\theta)$ ，其中 $\theta$ 是模型的参数。
初始参数： 随机或根据某些启发式方法初始化模型参数 $\theta$ 。
计算梯度： 计算目标函数关于参数 $\theta$ 的梯度（导数）。梯度表示目标函数在当前参数值处的变化方向。

$\triangledown J(\theta)=[\frac{\partial J}{\partial \theta _{1}},\frac{\partial J}{\partial \theta _{2}},...,\frac{\partial J}{\partial \theta _{n}}]$
参数更新： 使用梯度的反方向来更新参数，以减小目标函数值。学习率（ $\alpha$ ）是一个超参数，控制每次参数更新的步长。

$\theta =\theta -\alpha \triangledown J(\theta )$
迭代： 重复步骤 3 和 4 直到满足停止准则，如达到最大迭代次数、目标函数变化小于某个阈值等。

梯度下降法有三种常见的变体：

批量梯度下降 (Batch Gradient Descent): 在整个训练集上计算梯度，更新参数。适用于小型数据集，但可能计算代价高。
随机梯度下降 (Stochastic Gradient Descent, SGD): 在每个训练样本上计算梯度，并更新参数。速度快但可能不稳定。
小批量梯度下降 (Mini-batch Gradient Descent): 每次更新使用一个小批量的训练样本。综合了批量和随机梯度下降的优点，是常用的方法

特点和适用性

数学简单： 算法相对简单，易于理解和实现，尤其是批量梯度下降。
大规模数据集： 批量梯度下降对大规模数据集的适应性较差，因为在每次迭代中需要计算整个数据集的梯度，代价较高。随机梯度下降和小批量梯度下降通常更适合大规模数据。
凸函数： 梯度下降在凸函数的情况下保证能够收敛到全局最小值。对于凸优化问题，梯度下降通常是一个可行的选择。
不可微函数： 当损失函数不是处处可微的时候，梯度下降可能会遇到困难。对于不可微分的情况，可以考虑使用次梯度法等方法。
超参数调优： 对于学习率等超参数的选择敏感。需要进行仔细的调优，过小的学习率可能导致收敛速度慢，而过大的学习率可能导致震荡或无法收敛。
局部最优解： 存在被困在局部最优解的风险，特别是对于非凸问题。随机初始化、多次运行、以及其他优化算法可以帮助克服这个问题。

Adam:

Adam（Adaptive Moment Estimation）是一种优化算法，常用于机器学习和深度学习中。它结合了动量法和自适应学习率的思想，旨在在不同参数方向上为每个参数提供不同的学习率，并且具有动量项，有助于加速收敛。以下是Adam算法的详细解释：

梯度计算： 在每个迭代步骤中，计算目标函数关于参数的梯度。
动量项（Momentum）： Adam引入了动量项，类似于动量法，以保持在更新方向上的惯性。动量项 $m_{t}$ 在每次迭代中按照以下规则更新：

· $m_{_{t}}=\beta _{i}\cdot m_{t-1}+(1-\beta _{1})\cdot \triangledown J_{t}$

其中， $\beta _{1}$ 是动量的衰减系数（通常接近于1）， $\triangledown J_{t}$ 是当前迭代的梯度。
自适应学习率（Adaptive Learning Rate）： Adam使用了每个参数自适应的学习率。引入了一个梯度平方的指数移动平均项 $v_{t}$ ：

$v_{t} = \beta _{2}\cdot v_{t-1}+(1-\beta_{2})\cdot (\triangledown J_{t})^{2}$

其中， $\beta _{2}$ 是梯度平方项的衰减系数。
参数更新： 更新每个参数 $\theta$ ：

$\theta _{t} = \theta _{t-1}-\frac{\alpha}{\sqrt{v _{t}+\epsilon}}\cdot m _{t}$

其中， $\alpha$ 是学习率， $\epsilon$ 是为了数值稳定性而添加的小常数。

超参数：

$\alpha$ ：学习率，控制每次参数更新的步长。通常可以使用较小的默认值，如0.001。对学习率进行调整时，可通过学习率衰减或其他自适应方法来进一步优化。
$\beta _{1}$ ：动量项的衰减系数。一般设为接近1的值，例如0.9。较小的值会使动量项变化更加平缓，更快地适应变化。
$\beta _{2}$ ：梯度平方项的衰减系数。通常设为接近1的值，例如0.999。与 $\beta _{1}$ 类似，较小的值使梯度平方项的变化更平缓。
$\epsilon$ ：数值稳定性常数。通常使用一个较小的值，例如 $1\times 10 ^{-8}$ ，以防止分母为零。

特点和适用性：

Adam适用于各种深度学习任务和模型，通常对超参数不敏感，因此无需经常微调。
具有自适应学习率的特性，可以适应每个参数的不同尺度，减少了手动调整学习率的需求。
动量项有助于克服梯度下降中的局部最小值，并在参数更新方向上保持稳定性。
虽然Adam在许多情况下表现良好，但并非适用于所有问题。在某些情况下，其他优化算法（如SGD、RMSprop）也可能表现得更好。

Adagrad:

Adagrad（Adaptive Gradient Algorithm）是一种自适应学习率的优化算法，常用于机器学习和深度学习中。它的主要特点是根据参数的历史梯度信息来自适应地调整学习率，对稀疏数据的处理效果较好。以下是Adagrad的深入了解：

基本原理：

梯度平方累积： Adagrad维护一个参数的历史梯度平方的累积项。对于参数 $\theta$ ，其梯度 $g _{t,i}$ 在时间步 $t$ 的梯度平方累积为 $G _{t,i}=G _{t-1,i} + (g _{t,i}) ^{2}$ 。
学习率调整： Adagrad使用参数的历史梯度平方累积项来调整学习率。在更新参数时，学习率会被除以梯度平方项的平方根：

$\theta _{t+1,i}=\theta _{t,i}-\frac{\alpha }{\sqrt{G _{t,i}+\epsilon}}\cdot g _{t,i}$

其中， $\alpha$ 是初始学习率， $\epsilon$ 是为了数值稳定性而添加的小常数。

特点和适用性：

自适应学习率： Adagrad具有自适应学习率的特性，对于每个参数，学习率会根据其历史梯度的平方进行调整。这使得对于稀疏梯度的参数，学习率相对较大；而对于频繁出现的梯度较小的参数，学习率相对较小。
适用性： Adagrad适用于非凸、凸优化问题，尤其在处理稀疏数据时效果较好。由于学习率自适应，不需要手动调整学习率。
历史信息积累： Adagrad在更新中考虑了参数的历史梯度信息，这有助于在训练中更灵活地调整学习率，但也可能导致学习率过早下降。

注意事项：

累积效应： 由于梯度平方的累积，学习率可能在训练早期较大，但随着时间的推移逐渐减小。这可能导致后期训练时学习率过小，降低收敛速度。
分母项稳定性： 当梯度平方项累积到较大时，分母项可能变得很大，导致学习率过小。为了稳定性，通常会添加一个小的常数 $\epsilon$ 防止分母为零。

尽管Adagrad在一些问题上表现得很好，但也有一些问题，例如累积效应可能导致学习率过早下降。出于这个原因，后续算法如RMSprop和Adam在Adagrad的基础上做了改进。

RMSprop (Root Mean Square Propagation):

RMSprop（Root Mean Square Propagation）是一种自适应学习率的优化算法，用于梯度下降。它是对 Adagrad 算法的改进，主要通过引入梯度平方项的移动平均来调整学习率。以下是对RMSprop的深入了解：

基本原理：

梯度平方项的移动平均： RMSprop维护一个参数的历史梯度平方项的移动平均。对于参数 $\theta _{i}$ ，其梯度 $g _{t,i}$ 在时间步 $t$ 的梯度平方项的移动平均为 $E[g ^{2}] _{t}=\beta G _{t-1}+(1-\beta )g_{t,i}^{2}$ ，其中 $0<\beta <1$ 是移动平均的衰减率。
学习率调整： RMSprop使用参数的历史梯度平方项的移动平均来调整学习率。在更新参数时，学习率会被除以梯度平方项的平方根：

$\theta _{t+1,i}=\theta _{t,i}-\frac{\alpha }{\sqrt{E[g^{2}]+\epsilon }}\cdot g_{t,i}$

其中， $\alpha$ 是初始学习率， $\epsilon$ 是为了数值稳定性而添加的小常数。

特点和适用性：

自适应学习率： RMSprop具有自适应学习率的特性，根据每个参数的历史梯度平方项调整学习率。这使得对于每个参数，学习率相对较大的参数会得到更小的学习率，而相对较小的参数会得到更大的学习率。
适用性： RMSprop适用于非凸、凸优化问题，对稀疏梯度的参数有较好的处理效果。
历史信息积累： RMSprop在更新中考虑了参数的历史梯度平方项的移动平均，这有助于在训练中更灵活地调整学习率，但也可能导致学习率过早下降。

注意事项：

衰减率 $\beta$ 的选择： 衰减率 $\beta$ 的选择影响着历史信息的积累程度，通常取接近1的值，如0.9。
分母项稳定性： 当梯度平方项的移动平均累积到较大时，分母项可能变得很大，导致学习率过小。为了稳定性，通常会添加一个小的常数 $\epsilon$ 防止分母为零。

RMSprop在一些问题上表现得比Adagrad更好，特别是在处理非平稳目标函数和数据的情况下。然而，在某些情况下，可能会被更新的算法（如Adam）所取代。

Momentum (动量法):

Momentum是一种梯度下降的优化算法，通过引入动量项来改进传统的梯度下降。它的目标是解决梯度下降在参数空间中出现的局部最小值、鞍点等问题。以下是对Momentum的深入了解：

基本原理：

动量项： Momentum引入一个动量项，用来模拟物体在参数空间中的惯性。在每个时间步 $t$ ，动量 $vt$ 的更新规则为：

$v=\beta v_{t-1}+(1-\beta )g_{t}$

其中， $g_{t}$ 是当前时间步的梯度， $\beta$ 是动量项的衰减率，通常取接近1的值，如0.9。
参数更新： 使用动量项来更新参数。在每个时间步 $t$ ，参数 $\theta _{t}$ 的更新规则为：

$\theta _{t+1}=\theta _{t}-\alpha v_{t}$

其中， $\alpha$ 是学习率。

特点和适用性：

动量效应： 动量项具有一定的“惯性”，有助于平滑参数更新方向，减缓在参数空间中的震荡，特别是在平坦的、弯曲的或带有噪声的损失表面上。
适用性： Momentum适用于各种凸和非凸优化问题，对于深度学习中大规模神经网络的训练有显著帮助。
参数空间跳跃： Momentum可以帮助算法在参数空间中更快地跳过局部最小值或鞍点，有助于加速收敛。

注意事项：

衰减率 $\beta$ 的选择： 衰减率 $\beta$ 的选择影响动量项的权重，通常取接近1的值，如0.9。
学习率 $\alpha$ 的选择： Momentum不同于传统梯度下降，对学习率的选择并不那么敏感。通常，较小的学习率可以提高稳定性。
初始动量： 初始时，动量项 $v_{0}$ 通常初始化为零，但也可以根据实际问题进行调整。

Momentum是梯度下降优化算法中的经典方法，对于一些具有挑战性的优化问题，特别是在深度学习中，它在实践中表现出色。

Adadelta:

Adadelta是一种自适应学习率的优化算法，旨在解决学习率逐渐减小的问题，提高算法的稳定性。以下是对Adadelta的深入了解：

基本原理：

梯度平方项的移动平均： Adadelta类似于RMSprop，也使用了梯度平方项的移动平均。对于参数 $\theta _{i}$ ，其梯度 $g_{t,i}$ 在时间步 $t$ 的梯度平方项的移动平均为 $E[g^{2}]_{t}=\rho E[g^{2}]_{t-1}+(1-\rho )g_{t,i}^{2}$ ，其中 $0<\rho <1$ 是移动平均的衰减率。
学习率调整： Adadelta使用梯度平方项的移动平均来调整学习率。在更新参数时，学习率会被除以梯度平方项的平方根，并引入参数的移动平均的平方根项：

$\theta _{t+1,i}=\theta _{t,i}-\frac{\sqrt{E[\Delta \theta ^{2}]_{t-1}+\epsilon }}{E[g^{2}]_{t}+\epsilon }\cdot g_{t,i}$

其中， $\epsilon$ 是为了数值稳定性而添加的小常数。
参数的移动平均： Adadelta还维护了参数更新项的移动平均。对于参数 $\theta _{i}$ ，其更新项 $\Delta _{t,i}$ 在时间步 $t$ 的移动平均为 $E[\Delta \theta ^{2}]_{t}=\rho E[\Delta \theta ^{2}]_{t-1}+(1-\rho )(\Delta \theta _{t,i})^{2}$ 。

特点和适用性：

自适应学习率： Adadelta具有自适应学习率的特性，对每个参数的历史梯度平方项和参数更新项进行调整学习率。
无需手动调整学习率： Adadelta无需手动调整初始学习率，对于稀疏梯度的问题有较好的表现。
适用性： Adadelta适用于非凸、凸优化问题，对于学习率的选择相对较鲁棒。

注意事项：

衰减率 $\rho$ 的选择： 衰减率 $\rho$ 的选择影响移动平均的积累程度，通常取接近1的值，如0.9。
初始移动平均： 初始时，梯度平方项的移动平均和参数更新项的移动平均通常初始化为零，但也可以根据实际问题进行调整。

Adadelta在一些问题上表现得很好，特别是对于那些需要更多稳定性的优化问题。然而，在某些情况下，其他自适应学习率的算法（如Adam）可能被选择。

阿狸轰

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习：优化方法

它结合了动量法和自适应学习率的思想，旨在在不同参数方向上为每个参数提供不同的学习率，并且具有动量项，有助于加速收敛。而对于频繁出现的梯度较小的参数，学习率相对较小。这使得对于每个参数，学习率相对较大的参数会得到更小的学习率，而相对较小的参数会得到更大的学习率。RMSprop在更新中考虑了参数的历史梯度平方项的移动平均，这有助于在训练中更灵活地调整学习率，但也可能导致学习率过早下降。动量项具有一定的“惯性”，有助于平滑参数更新方向，减缓在参数空间中的震荡，特别是在平坦的、弯曲的或带有噪声的损失表面上。
复制链接

扫一扫

专栏目录