梯度下降（gradient descent)

最新推荐文章于 2024-07-16 17:12:38 发布

WJY991202

最新推荐文章于 2024-07-16 17:12:38 发布

阅读量126

点赞数

文章标签：深度学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WJY991202/article/details/128440701

版权

Suppose that $\theta$ has two variables{ $\theta$ 1, $\theta$ 2}

Randomly start at

Vanilla Gradient descent

梯度越大，步伐越大

Adagrad

泰勒展开式：如果红色圆圈足够小，在红色圆圈内找到误差最小的值是L( $\theta$ )

L( $\theta$ ) ≈ s + μ( $\theta$ 1-a) + v( $\theta$ 2-b)

找到最小值在红色圆圈内

（ $\theta$ 1-a)²+( $\theta$ 2-b)² <= d²

( $\theta$ 1-a) = Δ $\theta$ 1

( $\theta$ 2-b) = Δ $\theta$ 2

optimization

优化器：找出一个参数，越贴近越好，降低的Loss越多越好。

找到一组参数获得最低的L( $\theta$ )

SGDM+RMSProp

SGD

with momentum

自动提升优化器

Adagrad

RMSProp

Adam

改进SGDM

One-cycle LR

warm-up + annealing +fine-tuning

调整learning-rate

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度下降（gradient descent)

泰勒展开式：如果红色圆圈足够小，在红色圆圈内找到误差最小的值是L(优化器：找出一个参数，越贴近越好，降低的Loss越多越好。调整learning-rate。找到一组参数获得最低的L(找到最小值在红色圆圈内。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。