李宏毅深度学习——梯度下降

 Loss function是function的function(function为自变量,线性回归中w、b为自变量)

一开始离目标远learning_rate的值要比较大,等到离目标近的时候调小learning_rate

g^{_{}^{t}} 是导数,\sigma是所有之前步骤算出g^{_{}^{t}} 的均方根(先求平方,再求均值,最后开根号)

 出现矛盾,分母的地方gradient越大步伐越小,分子的地方gradient越大步伐越大

一个参数的时候,最好的步伐和微分大小成正比

a和b比较,a的微分大,a距离最低点是比较远(只考虑w1)

c和d比较,c的微分大,c距离最低点是比较远(只考虑w2)

如果比较是跨参数的话,结论就不成立了。c对w2的微分值大,a对w1的微分值小,但是c离最低点更近

所以不仅要考虑一次微分,还要考虑二次微分

最好的step不仅要正比于一次微分,还要和二次微分成反比 

w1这张图的二次微分小,w2这张图的二次微分大,这样就能解释,c对w2的微分值大,a对w1的微分值小,但是c离最低点更近,因为还要除掉各自的二次微分。

adagrad并没有直接计算二次微分(要花很长时间),adagrad是利用一次微分来估计二次微分

随机梯度下降,加快速度

w1对y的影响比较小,所以对loss的影响比较小

w2对y的影响比较大,所以对loss的影响比较大

这对gradient descent有影响(没直接往圆心走),随意要去量纲

错误,update参数以后loss不一定会下降 

 

 

(u,v) 是一个向量

(delta(theta1),delta(theta2))也是一个向量

要求两个向量的内集最小

显然两者成180度的时候,模模cos(theta)是最小的

前提是learning_rate一定要小,不然不成立

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值