机器学习优化算法—L-BFGS

最新推荐文章于 2023-07-11 16:08:00 发布

chenzhijay

最新推荐文章于 2023-07-11 16:08:00 发布

阅读量1.2w

点赞数 5

分类专栏：优化理论文章标签：优化算法机器学习 L-BFGS 拟牛顿法

本文链接：https://blog.csdn.net/henryczj/article/details/41542049

版权

L-BFGS是优化算法的一种，针对大规模优化问题，它改进了拟牛顿法中的BFGS算法，仅存储最近m次迭代的曲率信息以减少计算和存储开销。通过线性收敛，保持近似矩阵正定，实现快速且鲁棒的优化过程。在实际工程中，L-BFGS表现出高效性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关于优化算法的求解，书上已经介绍了很多的方法，比如有梯度下降法，坐标下降法，牛顿法和拟牛顿法。梯度下降法是基于目标函数梯度的，算法的收敛速度是线性的，并且当问题是病态时或者问题规模较大时，收敛速度尤其慢（几乎不适用）；坐标下降法虽然不用计算目标函数的梯度，但是其收敛速度依然很慢，因此它的适用范围也有局限；牛顿法是基于目标函数的二阶导数（海森矩阵）的，其收敛速度较快，迭代次数较少，尤其是在最优值附近时，收敛速度是二次的。但牛顿法的问题在于当海森矩阵稠密时，每次迭代的计算量比较大，因为每次都会计算目标函数的海森矩阵的逆，这样一来，当问题规模较大时，不仅计算量大（有时大到不可计算），而且需要的存储空间也多，因此牛顿法在面对海量数据时由于每一步迭代的开销巨大而变得不适用；拟牛顿法是在牛顿法的基础上引入了海森矩阵的近似矩阵，避免每次迭代都要计算海森矩阵的逆，拟牛顿法的收敛速度介于梯度下降法和牛顿法之间，是超线性的。拟牛顿法的问题也是当问题规模很大时，近似矩阵变得很稠密，在计算和存储上也有很大的开销，因此变得不实用。

另外需要注意的是，牛顿法在每次迭代时不能总是保证海森矩阵是正定的，一旦海森矩阵不是正定的，优化方向就会“跑偏”，从而使得牛顿法失效，也说明了牛顿法的鲁棒性较差。拟牛顿法用海森矩阵的逆矩阵来替代海森矩阵，虽然每次迭代不能保证是最优的优化方向，但是近似矩阵始终是正定的，因此算法总是朝着最优值的方向在搜索。

从上面的描述可以看出，很多优化算法在理论上有