常见深度学习优化器 BGD、SGD、MBGD及Adam 对比总结

最新推荐文章于 2024-11-19 21:19:10 发布

原创

最新推荐文章于 2024-11-19 21:19:10 发布 · 2.2k 阅读

·

36

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能 #算法 #神经网络 #反向传播

文章目录

0. 前言
1. Batch Gradient Descent (BGD)
2. Stochastic Gradient Descent (SGD)
3. Mini-batch Gradient Descent (MBGD)
4. Adam (Adaptive Moment Estimation)
5. 总结

0. 前言

本文介绍常见用于训练机器学习模型特别是深度学习模型的优化算法，它们的目标是通过最小化损失函数来更新模型参数。

1. Batch Gradient Descent (BGD)

批量梯度下降是一种迭代优化算法，用于寻找损失函数的最小值。给定损失函数 $J(\theta)$ ，其中 $\theta$ 是模型参数，批量梯度下降在每次迭代中计算整个训练集上损失函数关于参数 $\theta$ 的梯度，然后沿负梯度方向更新参数以减小损失。更新规则如下：

$\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta J(\theta_t)$

其中，

$\theta_t$ 表示在第 t 次迭代时的模型参数，
$\eta$ 是学习率（step size），
$\nabla_\theta J(\theta_t)$ 是在当前参数值下，整个训练集上的损失函数梯度。

2. Stochastic Gradient Descent (SGD)

随机梯度下降同样是用于优化模型参数的方法，但与批量梯度下降不同的是，它在每次迭代时仅随机抽取一个训练样本（或一个批次中的单个样本），并以此计算损失函数关于参数的梯度，然后更新参数：
$\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta J(\theta_t; x_i, y_i)$

最低0.47元/天解锁文章

新学期VIP享超值加赠

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

SmallerFL 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。