常见深度学习优化器 BGD、SGD、MBGD及Adam 对比总结


0. 前言

本文介绍常见用于训练机器学习模型特别是深度学习模型的优化算法,它们的目标是通过最小化损失函数来更新模型参数。

1. Batch Gradient Descent (BGD)

批量梯度下降是一种迭代优化算法,用于寻找损失函数的最小值。给定损失函数 J ( θ ) J(\theta) J(θ),其中 θ \theta θ 是模型参数,批量梯度下降在每次迭代中计算整个训练集上损失函数关于参数 θ \theta θ 的梯度,然后沿负梯度方向更新参数以减小损失。更新规则如下:

θ t + 1 = θ t − η ⋅ ∇ θ J ( θ t ) \theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta J(\theta_t) θt+1=θtηθJ(θt)

其中,

  • θ t \theta_t θt 表示在第 t 次迭代时的模型参数,
  • η \eta η 是学习率(step size),
  • ∇ θ J ( θ t ) \nabla_\theta J(\theta_t) θJ(θt) 是在当前参数值下,整个训练集上的损失函数梯度。

2. Stochastic Gradient Descent (SGD)

随机梯度下降同样是用于优化模型参数的方法,但与批量梯度下降不同的是,它在每次迭代时仅随机抽取一个训练样本(或一个批次中的单个样本),并以此计算损失函数关于参数的梯度,然后更新参数:
θ t + 1 = θ t − η ⋅ ∇ θ J ( θ t ; x i , y i ) \theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta J(\theta_t; x_i, y_i) θt+1=θtη

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SmallerFL

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值