本文主要来自李宏毅老师的PPT
假设给定损失函数和梯度下降的初始点,那么就可以在这个点附近找出最小值点,那么就可以以这个最小值点出发,同样画一个范围,找出该范围内的最小值点,循环迭代直至找到最优解。那么问题是,如何最快的找到最优解?换种说法就是从哪个方向找loss下降的最快?
这里引入泰勒展开式进行说明,泰勒展开式的几何意义是可以利用一个函数在某点的信息描述该点附近点的取值信息。如果一个函数任意阶都可微,那么他的泰勒展开式可以写成(1)式。当x无限趋近于x0时,该式的前两项也就是
远大于后面几项,因此h(x)可以写成(2)式。
同理,数据为二维时,泰勒公式如下
现在假设红色圈圈的圆心坐标为(a,b),那么泰勒式可以写成下图的形式,使用一些代换,可最终写成(1)式的形式。接下来的任务就是找到一组是的
的值最小。
当然,我们要找的要在红色的圆内,所以要满足(1)式。
接下来进行一步代换,s是常量可以暂时忽略,那么就等于
和
的内积。
内积的几何意义如下图,表示的是向量v在u上的投影再乘以向量u,所以当v在u的负方向时他们的内积最小。
所以得到下图,当的长度等于d且处于
的负方向时时,
最小