机器学习优化算法总结

最新推荐文章于 2020-08-08 20:59:00 发布

zqliu133

最新推荐文章于 2020-08-08 20:59:00 发布

阅读量1.1k

点赞数

分类专栏： machine learning

本文链接：https://blog.csdn.net/zqliu133/article/details/49851899

版权

machine learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

很多机器学习应用问题都可以转化为一个无约束优化问题 $f(w)$ 。针对此最优化问题，解决这个问题的通用做法是随机给定一个初始的 $w_0$ ，通过迭代，在每次迭代中计算目标函数的下降方向并更新 $w$ ，直到目标函数稳定在最小的点。

不同的优化算法的区别就在于目标函数下降方向的计算。下降方向是通过对目标函数在当前的 $w$ 下求一阶倒数（梯度，Gradient）和求二阶导数（海森矩阵，Hessian Matrix）得到。常见的算法有梯度下降法、牛顿法、拟牛顿法。

（1）梯度下降法（Gradient Descent）

梯度下降法直接采用目标函数在当前的梯度 $w$ 的反方向作为下降方向： $D_t=-G_t=-\nabla_w f(w_t)$ ，其中为 $G_t$ 目标函数的梯度。

（2）牛顿法（Newton Methods）

牛顿法是在当前 $w$ 下，利用二次泰勒展开近似目标函数，然后利用该近似函数来求解目标函数的下降方向： $D_t=-B_t^{-1}\nabla_w f(w_t)$ 。

其中 $B_t$ 为目标函数 $f(w)$ 在 $w_t$ 处的海森矩阵。这个搜索方向也称作牛顿方向。

（3）拟牛顿法（Quasi-Newton Methods）

l拟牛顿法只要求每一步迭代中计算目标函数的梯度，通过拟合的方式找到一个近似的海森矩阵用于计算牛顿方向。最早的拟牛顿法是DFP（1959年由W. C. Davidon提出，并由R. Fletcher和M. J. D. Powell进行完善）。DFP继承了牛顿法收敛速度快的优点，并且避免了牛顿法中每次迭代都需要重新计算海森矩阵的问题，只需要利用梯度更新上一次迭代得到的海森矩阵，但缺点是每次迭代中都需要计算海森矩阵的逆，才能得到牛顿方向。

BFGS是由C. G. Broyden, R. Fletcher, D. Goldfarb和D. F. Shanno各自独立发明的一种方法，只需要增量计算海森矩阵的逆 $H_t=-B_t^{-1}$ ，避免了每次迭代中的矩阵求逆运算。BFGS中牛顿方向表示为： $D_t=-H_t\nabla_w f(w_t)$