深度学习-优化器(持续更新中)

本文深入探讨了深度学习中优化器的重要角色,包括梯度下降法及其变种如批量梯度下降、随机梯度下降和小批量梯度下降。此外,还详细介绍了动量、Nesterov加速梯度和自适应学习率系列优化器如Adagrad、Adadelta、RMSprop及Adam的工作原理。
摘要由CSDN通过智能技术生成

优化器

深度学习的目的是最小化损失,在损失函数定义好的情况下,使用优化器进行求解最小损失。
损失函数是用来计算测试集中目标Yd 额真实值和预测值的偏差程度。

梯度下降法

梯度下降:学习训练的模型参数为w,损失函数为J(w),则损失函数关于模型参数的偏导数即相关梯度为ΔJ(w),学习率为η,梯度下降法更新参数公式:w=w−η×ΔJ(w),模型参数的调整沿着梯度方向不断减小的方向最小化损失函数。

  • 批量梯度下降(BGD)
    它们会在一个大批量中同时处理所有样本。
  • 随机梯度下降(SGD)
    随机梯度下降法不同于批量梯度下降,随机梯度下降是在每次迭代时 使用一个样本来对参数进行更新(mini-batch size =1)
  • 小批量梯度下降(MBGD)
    使用一个以上而又不是全部的训练样本

SGD的梯度下降过程,类似于一个小球从山坡上滚下,它的前进方向只于当前山坡的最大倾斜方向一致(最大负梯度方向),每一个时刻的初速度为0

SGDM Momentum 动量

参考深度学习优化器总结

  • 公式
    v t = γ v t − 1 + η ∇ θ J ( θ ) θ = θ − v t \begin{aligned} v_{t} &=\gamma v_{t-1}+\eta \nabla_{\theta} J(\theta) \\ \theta &=\theta-v_{t} \end{aligned} vtθ=γvt1+ηθJ(θ)=θvt
  • SGD的梯度下降过程,类似于一个小球从山坡上滚下,它的前进方向由当前山坡的最大倾斜方向与之前的下降方向共同决定,小球具有初速度(动量),不只被梯度制约。SGDM克服了之前SGD易震荡的缺点,对比效果如下图:
    在这里插入图片描述

Nesterov accelerated gradient

  • 公式
    v t = γ v t − 1 + η ∇ θ J ( θ − γ v t − 1 ) θ = θ − v t \begin{aligned} v_{t} &=\gamma v_{t-1}+\eta \nabla_{\theta} J\left(\theta-\gamma v_{t-1}\right) \\ \theta &=\theta-v_{t} \end{aligned} vtθ=γvt1+ηθJ(θγvt1)=θvt

自适应学习系列

Adagrad

Adadelta

RMSprop

Adam

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值