梯度下降法沿着负梯度方向逐步更新优化参数
最优梯度法利用梯度计算步长,减小在谷底的来回振动
共轭梯度法每次搜索方向与上次方向共轭,理论上K维变量经过k次迭代可找到最优解
1 梯度下降法
函数在某一点的梯度是,在该方向单位步长上升最快的向量。梯度下降法是利用待优化变量,沿着负梯度方向不断迭代寻找最优值。
直观理解:
梯度下降法算法流程:
(PPT画个图可真难)
梯度下降法证明:通过泰勒展开表达式证明沿着梯度下降最快。
对函数在初值
处进行一阶泰勒展开可以得到:
(1-1)
由于是在处泰勒展开,即在
附近近似程度才较高,因此
是微小向量,可以令:
是步长,
是单位向量,则有:((1-1)用约等于,后序采用等于号)
目的是找到新的x,使,即
,令:
得到目的转化为:
是正标量忽略,得到:
由于向量v为单位向量,设为v与
之间的夹角,由:
当且仅当v与方向相反时,
取得最小值,由
可知,此时
在此方向下降最快,即在梯度反方向下降最快。
2 最优梯度法
梯度法设置固定步长,可能出现的情况是在谷底左右来回波动难以收敛。最优梯度法根据梯度模长设置步长,在越接近最优点,步长越短。算法如下:
相比梯度下降法,最优梯度法的核心在于利用梯度计算步长,步长计算公式推导如下:
最优化方程可以写成如下形式:
将在
处进行二阶泰勒展开得到:
其中,A是f(x)的二阶偏导矩阵。用替换
可以得到:
在极小值处有:
即可得到:
3 共轭梯度法
共轭梯度法对最优梯度法进行了修正,搜索方向为共轭方向,将负梯度方向旋转了一个角度,每次往最优方向需要在负梯度方向进行修正。算法如下:
共轭梯度法证明:
对于二次型优化问题:
(3-1)
下一次的搜索方向需要与上一次搜索方向共轭,即:
(3-2)
计算梯度:
(3-3)
两梯度相减可得:
(3-4)
由参数更新公式:
(3-5)
代入(3-4)可得:
(3-6)
将方向更新公式:
(3-7)
及(3-6)代入(3-2)可得:
(3-8)
因为与
正交,乘积为0。化简(3-8)可得:
(3-9)
将代入3-9得到:
(3-10)
可以近似成:
(3-11)
表格中步长计算采用了一维搜索法,当然也可以固定步长或者采用最优梯度法中的步长计算方法进行替换。
梯度下降法在不同的迭代轮数中会选择非常近似的方向,说明沿着这个方向的误差没有一次更新完成,优化过程呈锯齿状。共轭梯度法的思想是,选择一个优化方向后,本次选择的步长能够将这个方向的误差更新完,在以后的优化更新过程中不再需要朝这个方向更新了。由于每次将一个方向优化到了极小,后面的优化过程将不再影响之前优化方向上的极小值,所以理论上对N维问题求极小只用对N个方向都求出极小就行了。
共轭梯度法计算流程如下图: