Loss function是function的function(function为自变量,线性回归中w、b为自变量)
一开始离目标远learning_rate的值要比较大,等到离目标近的时候调小learning_rate
是导数,
是所有之前步骤算出
的均方根(先求平方,再求均值,最后开根号)
出现矛盾,分母的地方gradient越大步伐越小,分子的地方gradient越大步伐越大
一个参数的时候,最好的步伐和微分大小成正比
a和b比较,a的微分大,a距离最低点是比较远(只考虑w1)
c和d比较,c的微分大,c距离最低点是比较远(只考虑w2)
如果比较是跨参数的话,结论就不成立了。c对w2的微分值大,a对w1的微分值小,但是c离最低点更近
所以不仅要考虑一次微分,还要考虑二次微分
最好的step不仅要正比于一次微分,还要和二次微分成反比
w1这张图的二次微分小,w2这张图的二次微分大,这样就能解释,c对w2的微分值大,a对w1的微分值小,但是c离最低点更近,因为还要除掉各自的二次微分。
adagrad并没有直接计算二次微分(要花很长时间),adagrad是利用一次微分来估计二次微分
随机梯度下降,加快速度
w1对y的影响比较小,所以对loss的影响比较小
w2对y的影响比较大,所以对loss的影响比较大
这对gradient descent有影响(没直接往圆心走),随意要去量纲
错误,update参数以后loss不一定会下降
(u,v) 是一个向量
(delta(theta1),delta(theta2))也是一个向量
要求两个向量的内集最小
显然两者成180度的时候,模模cos(theta)是最小的
前提是learning_rate一定要小,不然不成立