深度学习知识点：为什么梯度的负方向是梯度下降最快的方向？

最新推荐文章于 2023-07-25 15:28:28 发布

草莓夹心

最新推荐文章于 2023-07-25 15:28:28 发布

阅读量2.6k

点赞数 1

文章标签：梯度下降

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37213964/article/details/89476075

版权

本文主要来自李宏毅老师的PPT

假设给定损失函数和梯度下降的初始点 $\Theta ^{0}$ ，那么就可以在这个点附近找出最小值点，那么就可以以这个最小值点出发，同样画一个范围，找出该范围内的最小值点，循环迭代直至找到最优解。那么问题是，如何最快的找到最优解？换种说法就是从哪个方向找loss下降的最快？

这里引入泰勒展开式进行说明，泰勒展开式的几何意义是可以利用一个函数在某点的信息描述该点附近点的取值信息。如果一个函数 $h(x)$ 任意阶都可微，那么他的泰勒展开式可以写成（1）式。当x无限趋近于x0时，该式的前两项也就是 $h(x_{0})+h^{'}(x_{0})(x-x_{0})$ 远大于后面几项，因此h(x)可以写成（2）式。

同理，数据为二维时，泰勒公式如下

现在假设红色圈圈的圆心坐标为（a,b）,那么泰勒式可以写成下图的形式，使用一些代换，可最终写成（1）式的形式。接下来的任务就是找到一组 $（\Theta _{1}，\Theta _{2}）$ $(\Theta _{1},\Theta _{2})$ 是的 $L(\Theta )$ 的值最小。

当然，我们要找的 $(\Theta _{1},\Theta _{2})$ 要在红色的圆内，所以要满足（1）式。

接下来进行一步代换，s是常量可以暂时忽略，那么 $L(\Theta )$ 就等于 $(u,v)$ 和 $(\Delta \Theta _{1},\Delta \Theta _{2})$ 的内积。

内积的几何意义如下图，表示的是向量v在u上的投影再乘以向量u,所以当v在u的负方向时他们的内积最小。

所以得到下图，当 $(\Delta \Theta _{1},\Delta \Theta _{2})$ 的长度等于d且处于 $(u,v)$ 的负方向时时， $L(\Theta )$ 最小

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
深度学习知识点：为什么梯度的负方向是梯度下降最快的方向？

本文主要来自李宏毅老师的PPT假设给定损失函数和梯度下降的初始点，那么就可以在这个点附近找出最小值点，那么就可以以这个最小值点出发，同样画一个范围，找出该范围内的最小值点，循环迭代直至找到最优解。那么问题是，如何最快的找到最优解？换种说法就是从哪个方向找loss下降的最快？这里引入泰勒展开式进行说明，泰勒展开式的几何意义是可以利用一个函数在某点的信息描述该点附近点的取值信息。如果...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。