Differences between Gradient Descent and Steepest Descent Method
梯度法(Gradient Descent Method)和最速下降法(Steepest Descent Method)在Boyd 经典的凸规划教材《Convex Optimization》中,本就是无约束极值问题(Unconstrained Minimization) 这一章中并立的两节内容,也就是说,他们其实是两个不同的概念。
梯度法直观地认为,负梯度方向就是目标函数值下降最快的方向,即
而最速下降法的初衷,是找泰勒一阶展开式
由上式可得,最速下降法的下降方向受到范数的限制,如果这里的范数取欧式范数(Euclidean Norm),则最速下降法就可以简单地理解为梯度法,即
当采用矩阵2-范数
范数的选取对于最速下降法的收敛效率有很大的影响,上面提到的选取矩阵2-范数的情况,在进行
综上,从概念的意义上来讲,负梯度方向不一定总是某点上下降最快的方法,因此这两个方法在当不满足负梯度方向为最快下降方向的条件时,是不同的;从数学的意义上,当范数为欧式范数时,两种方法可以得到相同的下降过程,反之,当选取其它类型的范数时,会得到不同的下降方向;从坐标的角度来讲,欧式范数对应的是欧式距离,也就是两点的直线距离,但是当采用矩阵2-范数时,可以看作是坐标发生了变化,因此,其对应的步长也就不是根据欧式距离进行计算的了。
查阅了几本国内外的运筹学书目,都没有对这个方面非常具体解释。
周晶老师的《运筹学》一书中称:“在所有下降方向中,某点的负梯度方向是函数值下降最快的方向,因此被称为函数的最速下降方向,梯度法也被称为最速下降法,但必须指出的是,该性质通常只在该点附近有效,对于整个极小化过程来说,未必成立。”
清华大学出版社的《运筹学》第四版中也说:“由于负梯度方向的最速下降性,很容易使人们认为负梯度方向是理想的搜索方向,最速下降法是一种理想的极小化方法。必须指出,X 点处的负梯度方向,仅在 X 点附近才具有这种‘最速下降’的性质,而对于整个极小化过程来说,那就是另外一回事了。”
但在Sheffi的 《Urban Transportation Networks》中,在The method of steepest descent”小节中(Page92),直接说“The direction of search is opposite to the gradient direction”,其实是一种不够严谨的说法了。
参考资料
[1] Boyd, S., & Vandenberghe, L. (2004). Convex optimization. Cambridge university press.
附录
关于范数的解释
范数简单来说是一种强化了的距离概念,包括向量范数和矩阵范数,向量范数表征向量空间中向量的大小,矩阵范数表征矩阵引起变化的大小。
范数小于等于1的向量集合
常用范数计算方法
A. 向量范数
B. 矩阵范数
Quadratic Norm:
对偶范数
对偶范数的一般形式: