李宏毅Machine Learning学习笔记3 Gradient Descent

最新推荐文章于 2023-11-04 21:24:25 发布

songyuequan

最新推荐文章于 2023-11-04 21:24:25 发布

阅读量328

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/songyuequan/article/details/80360272

版权

本文介绍了优化问题中梯度下降法的重要性，强调了学习率调优的技巧，包括可视化损失和参数更新的关系、自适应学习率策略如Adagrad。此外，还探讨了随机梯度下降和特征缩放对训练的影响，并从数学角度阐述了泰勒级数在梯度下降中的应用，以及梯度下降可能面临的局部最小值、鞍点和平台区的挑战。

摘要由CSDN通过智能技术生成

optimization problem

$\theta ^*= {\arg \min_{ \theta }}L(\theta )$

这里写图片描述

Tip 1: Tuning your Learning rates

这里写图片描述
- 1 small 如果步伐非常小训练的时间会非常长。
- 2 large 如果步伐非常大没有办法走到最低点。会在一个范围震荡
- 3 very large 如果步伐太大 loss很快就飞出去了。

visionlize loss 和参数更新的关系。

这里写图片描述
- 1 learning rate 太小 loss下降非常慢
- 2 lerning rate 太大 loss下降非常快但是很快就卡住。
- 3 learning rate 特别大 loss很快就飞出去了。

在做梯度下降的时候，最好把这个图画出来。否则你不知道这个梯度下降在哪里坏掉了。

Adaptive Learning Rates

Popular & Simple Idea: Reduce the learning rate by some factor every few epochs.

通常leaning rate 随着参数的update会减小。

At the beginning, we are far from the destination, so we use larger learning rate（刚开始的时候，离最低点比较远，所以你的步伐需要大一点。）
After several epochs, we are close to the destination, so we reduce the learning rate（经过几次更新之后呢，已经比较靠近目标了，这时候就应该减小learning rate）
eg

$\eta^t = \eta / \sqrt{t+1}$

Learning rate cannot be one-size-fits-all

Giving different parameters different learning rates

不同的参数有不同的learning rate)

Adagrad

这里写图片描述

$w^1\leftarrow w^0 - \frac{\eta^0}{\delta^0}g^0 \quad \delta^0= \sqrt{(g^0)^2}$

$w^2\leftarrow w^1 - \frac{\eta^1}{\delta^1}g^1 \quad \delta^1= \sqrt{\frac{1}{2}[(g^0)^2+(g^1)^2]}$

w

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

songyuequan CSDN认证博客专家 CSDN认证企业博客

码龄10年

71: 原创

5万+: 周排名

200万+: 总排名

23万+: 访问

: 等级

2618: 积分

47: 粉丝

53: 获赞

33: 评论

208: 收藏

私信

关注

热门文章

分类专栏

最新评论

Git 找回删除的分支
Evanpatchouli℃: 感谢救我一命！
Git:rebase 是什么
团圆吧: 不喜欢看英语，在这里学到了很多硬核知识。
getGenericSuperclass的用法
大丶雪: 都没格式，看都不想看
Need BLUETOOTH_PRIVILEGED permission
ASP蓝叶: 一共有三种匹配方式，1234的setpin就行了，不需要确认还有一种是远程设备提供密钥setPasskey，应该也不用确认唯有第三种弹出框上有密钥的这一种需要点击确认
Ubuntu LTS 18.04 配置DHCP Server
国服卤蛋儿: 博主好，我在含有dhcp 中继的场景下做了尝试，此时isc-dhcp server启动失败，看日志是因为监听的接口的ip 和配置的分配地址池不在同一网段。 isc-dhcp这个看起来不支持中继的场景啊？您有遇到过吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。