优化函数（Optimization Function）

最新推荐文章于 2024-04-05 14:43:08 发布

lijfrank

最新推荐文章于 2024-04-05 14:43:08 发布

阅读量1w

点赞数 2

分类专栏： ML

本文链接：https://blog.csdn.net/Frank_LJiang/article/details/104269899

版权

ML 专栏收录该内容

38 篇文章

订阅专栏

本文深入探讨了深度学习中常见的优化函数，如梯度下降、批量梯度下降、随机梯度下降及Adam优化器的工作原理与优缺点。梯度下降作为基础方法，存在计算成本高和易陷入局部最优的问题；批量梯度下降和随机梯度下降分别针对全局最优和抖动问题进行了优化；而Adam优化器通过自适应学习率提高了优化效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在利用损失函数（Loss Function）计算出模型的损失值之后，接下来需要利用损失值进行模型参数的优化。在实践操作最常用到的是一阶优化函数。包括GD，SGD，BGD，Adam等。一阶优化函数在优化过程中求解的是参数的一阶导数，这些一阶导数的值就是模型中参数的微调值。

1.梯度下降

梯度下降（Gradient Descent）是参数优化的基础方法。虽然已广泛应用，但是其自身存在许多不足，所以在其基础上改进的优化函数也非常多。

全局梯度下降的参数更新公式如下：

$\theta_{j}=\theta_{j}-\eta \times \frac{\partial J\left(\theta_{j}\right)}{\partial \theta_{j}}$

其中，训练样本总数为 $n,j=0....n$ 。 $\theta$ 是我们优化的参数对象， $\eta$ 是学习速率， $J(\theta )$ 是损失函数，后面的求导是根据损失函数来计算 $\theta$ 的梯度。学习速率过快，参数的更新跨步就会变大，极易出现局部最优和抖动。学习率过慢，梯度更新的迭代次数就会增加，参数更新时间也会变长。