深度学习-优化器（持续更新中）

最新推荐文章于 2023-07-27 11:50:22 发布

NoOne-csdn

最新推荐文章于 2023-07-27 11:50:22 发布

阅读量430

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40161254/article/details/102468019

版权

机器学习专栏收录该内容

16 篇文章

订阅专栏

优化器

深度学习的目的是最小化损失，在损失函数定义好的情况下，使用优化器进行求解最小损失。
损失函数是用来计算测试集中目标Yd 额真实值和预测值的偏差程度。

梯度下降法

梯度下降：学习训练的模型参数为w，损失函数为J(w)，则损失函数关于模型参数的偏导数即相关梯度为ΔJ(w)，学习率为η，梯度下降法更新参数公式：w=w−η×ΔJ(w)，模型参数的调整沿着梯度方向不断减小的方向最小化损失函数。

批量梯度下降（BGD）
它们会在一个大批量中同时处理所有样本。
随机梯度下降（SGD）
随机梯度下降法不同于批量梯度下降，随机梯度下降是在每次迭代时使用一个样本来对参数进行更新（mini-batch size =1）
小批量梯度下降（MBGD）
使用一个以上而又不是全部的训练样本

SGD的梯度下降过程，类似于一个小球从山坡上滚下，它的前进方向只于当前山坡的最大倾斜方向一致(最大负梯度方向)，每一个时刻的初速度为０

SGDM Momentum 动量

参考深度学习优化器总结

公式
$\begin{aligned} v_{t} &=\gamma v_{t-1}+\eta \nabla_{\theta} J(\theta) \\ \theta &=\theta-v_{t} \end{aligned}$
SGD的梯度下降过程，类似于一个小球从山坡上滚下，它的前进方向由当前山坡的最大倾斜方向与之前的下降方向共同决定，小球具有初速度(动量)，不只被梯度制约。SGDＭ克服了之前SGD易震荡的缺点，对比效果如下图：

Nesterov accelerated gradient

公式
$\begin{aligned} v_{t} &=\gamma v_{t-1}+\eta \nabla_{\theta} J\left(\theta-\gamma v_{t-1}\right) \\ \theta &=\theta-v_{t} \end{aligned}$

自适应学习系列

Adagrad

Adadelta

RMSprop

Adam

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。