-
在function set 中找出 best function,需涉及Loss function。
-
Loss 损失函数:input为一个function ,output 为function 有多坏。
在实现回归时采取线性模型的过程中
构建:y = wx+b
(w和b有很多种取值构成不同的function,形成一个function set)
best function:求出Loss函数取得最小值时的w 和 b(使用梯度下降法,梯度下降法是每次update参数值,直到损失函数最小。
梯度:在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率
该图即为分别对w,b进行求偏微分的操作。
- θ是函数模型中的参数(w,b),此处即为参数θ的不断更新。
- η是学习率(具有初始的值,为常量),与移动的步伐大小有关。
Gradient Descent:
普通版和adagrad:(g即为微分值)
adagrad:
在普通版梯度下降中,g(t)越大,step越大;
在adagrad中的分母中,g(i)越大,step反而越小。
- 当参数只有一个时,参见二次函数:y=ax^2+bx+c(a>0)
y对x求一阶导,算出的微分值若越大,则step越大,x0距离最低点越远。
2.当参数有多个时,上述第一点的结论则不一定成立。
3.综上2条,最好的step = 一次微分/二次微分 。
adagrad中的分母即为对该函数的二次微分的估测值。
参考资料:
https://www.bilibili.com/video/av35932863?p=5