深度学习知识点:为什么梯度的负方向是梯度下降最快的方向?

本文主要来自李宏毅老师的PPT

 

假设给定损失函数和梯度下降的初始点\Theta ^{0},那么就可以在这个点附近找出最小值点,那么就可以以这个最小值点出发,同样画一个范围,找出该范围内的最小值点,循环迭代直至找到最优解。那么问题是,如何最快的找到最优解?换种说法就是从哪个方向找loss下降的最快?

这里引入泰勒展开式进行说明,泰勒展开式的几何意义是可以利用一个函数在某点的信息描述该点附近点的取值信息。如果一个函数h(x)任意阶都可微,那么他的泰勒展开式可以写成(1)式。当x无限趋近于x0时,该式的前两项也就是h(x_{0})+h^{'}(x_{0})(x-x_{0})远大于后面几项,因此h(x)可以写成(2)式。

同理,数据为二维时,泰勒公式如下

 

 现在假设红色圈圈的圆心坐标为(a,b),那么泰勒式可以写成下图的形式,使用一些代换,可最终写成(1)式的形式。接下来的任务就是找到一组(\Theta _{1},\Theta _{2})(\Theta _{1},\Theta _{2})是的L(\Theta )的值最小。

当然,我们要找的(\Theta _{1},\Theta _{2})要在红色的圆内,所以要满足(1)式。

接下来进行一步代换,s是常量可以暂时忽略,那么L(\Theta )就等于(u,v)(\Delta \Theta _{1},\Delta \Theta _{2})的内积。

 内积的几何意义如下图,表示的是向量v在u上的投影再乘以向量u,所以当v在u的负方向时他们的内积最小。

所以得到下图,当(\Delta \Theta _{1},\Delta \Theta _{2})的长度等于d且处于(u,v)的负方向时时,L(\Theta )最小

 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值