李宏毅深度学习——梯度下降

最新推荐文章于 2023-03-04 17:33:17 发布

Grateful_Dead424

最新推荐文章于 2023-03-04 17:33:17 发布

阅读量729

点赞数

分类专栏：深度学习（李宏毅）文章标签：深度学习人工智能机器学习梯度下降

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Grateful_Dead424/article/details/121759967

版权

深度学习（李宏毅）专栏收录该内容

10 篇文章 8 订阅

订阅专栏

Loss function是function的function（function为自变量，线性回归中w、b为自变量）

一开始离目标远learning_rate的值要比较大，等到离目标近的时候调小learning_rate

$g^{_{}^{t}}$ 是导数， $\sigma$ 是所有之前步骤算出 $g^{_{}^{t}}$ 的均方根（先求平方，再求均值，最后开根号）

出现矛盾，分母的地方gradient越大步伐越小，分子的地方gradient越大步伐越大

一个参数的时候，最好的步伐和微分大小成正比

a和b比较，a的微分大，a距离最低点是比较远（只考虑w1）

c和d比较，c的微分大，c距离最低点是比较远（只考虑w2）

如果比较是跨参数的话，结论就不成立了。c对w2的微分值大，a对w1的微分值小，但是c离最低点更近

所以不仅要考虑一次微分，还要考虑二次微分

最好的step不仅要正比于一次微分，还要和二次微分成反比

w1这张图的二次微分小，w2这张图的二次微分大，这样就能解释，c对w2的微分值大，a对w1的微分值小，但是c离最低点更近，因为还要除掉各自的二次微分。

adagrad并没有直接计算二次微分（要花很长时间），adagrad是利用一次微分来估计二次微分

随机梯度下降，加快速度

w1对y的影响比较小，所以对loss的影响比较小

w2对y的影响比较大，所以对loss的影响比较大

这对gradient descent有影响（没直接往圆心走），随意要去量纲

错误，update参数以后loss不一定会下降

（u,v）是一个向量

（delta(theta1),delta(theta2)）也是一个向量

要求两个向量的内集最小

显然两者成180度的时候，模模cos（theta）是最小的

前提是learning_rate一定要小，不然不成立

Grateful_Dead424

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅深度学习——梯度下降

Loss function是function的function（function为自变量，线性回归中w、b为自变量）一开始离目标远learning_rate的值要比较大，等到离目标近的时候调小learning_rate是导数，是所有之前步骤算出的均方根（先求平方，再求均值，最后开根号）出现矛盾，分母的地方gradient越大步伐越小，分子的地方gradient越大步伐越大一个参数的时候，最好的步伐和微分大小成正比a和b比较，a的微分大，a距离最低点是比较远（只考虑...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。