梯度下降算法（Gradient Descent Optimization）、随机梯度下降SGD与小批量梯度下降MBGD

最新推荐文章于 2022-04-05 10:38:02 发布

cute_Lily

最新推荐文章于 2022-04-05 10:38:02 发布

阅读量557

点赞数 1

分类专栏： # 数学基础

本文链接：https://blog.csdn.net/coffee_cream/article/details/108886854

版权

本文详细介绍了梯度下降法的原理及其三种变体：批量梯度下降、随机梯度下降和小批量梯度下降。讨论了它们在优化损失函数时的特点和应用场景，并着重探讨了随机梯度下降的改进方法，包括动量法、AdaGrad和Adam算法，以解决山谷震荡和鞍点停滞问题。

摘要由CSDN通过智能技术生成

梯度下降算法（Gradient Descent Optimization）是求解损失函数最小值最常用的方法之一，根据计算目标函数采用数据量的不同，梯度下降算法又可以分为批量梯度下降算法（Batch Gradient Descent），随机梯度下降算法（Stochastic Gradient Descent）和小批量梯度下降算法（Mini-batch Gradient Descent）。

1 梯度下降法

1.1 梯度下降法原理

梯度下降法（Gradient Descent）是一种常用的一阶（First Order）优化方法，是求解无约束优化问题最简单、最经典的方法之一。

在微积分里面，对多元函数的参数求偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数 $f (x, y)$ ，分别对 $x$ 和 $y$ 求偏导，组成的 $(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})^T$ 就叫做梯度向量，简称为 $\ f(x,y)$ 或者 $\nabla f(x,y)$ 。