1、方向导数和梯度是什么关系?
假设函数连续可微;
1.1)在平面二维中,y=f(x)导数即某个点的切线,切线没有方向性的说法;
1.2)在三维中,z=f(x,y)中过某个点有无数条切线,每一条切线都有一个方向了,这个方向就是方向导数的方向向量;不同的方向导数大小不一样,最大的方向导数就是梯度;
在梯度下降法中通常用一个凸函数进行数形结合,好处是理解起来更加生动形象;(z=f(x,y)凸函数可以用山凹进行示意,盆地也挺形象,实在不行就理解为家里炒菜的锅的样子的函数图像)
2、梯度下降是迭代算法
3、梯度下降法的目的?
求出局部最优解;
对应数学基础:与多远函数的极值问题相对应,可参考中科大《数学分析教程》9.11极值 P419;局部最优解即求解驻点问题;
3.1)如果z=f(x,y)本身是凸函数,局部最优解就是全局最优;
3.2)如果z=f(x,y)不是凸函数,在求解局部最优时并不能说明就是全局最优解;这个函数可能有多个极小值,假设Value[i](i=1,2,3...)记为极值点,但最值点却只有一个,记为MinValue;MinValue = min{Value[1],Value[2]...Value[n]}
4、为什么梯度下降法求出解不一定是最小值?
4.1)随机初始值可能影响;
4.2)迭代算法本身的计算方式,使得求解陷于局部最优;