坐标轴下降 vs 梯度下降

最新推荐文章于 2024-03-21 12:50:14 发布

呆小呆_

最新推荐文章于 2024-03-21 12:50:14 发布

阅读量1.1k

点赞数

文章标签：深度学习 python 机器学习算法神经网络

原文链接：https://www.cnblogs.com/makefile/p/coord-descent.html

版权

坐标轴下降 vs 梯度下降

梯度下降与坐标下降优化方法

梯度下降法

在每次迭代更新时选择负梯度方向(最速下降的方向)进行一次更新.不断迭代直至到达我们的目标或者满意为止.

坐标下降法

当损失函数不可导,梯度下降不再有效,可以使用坐标轴下降法，坐标下降法属于一种非梯度优化的方法，它在每步迭代中沿一个坐标的方向进行搜索，通过循环使用不同的坐标方法来达到目标函数的局部极小值。求导时只对一个维度(坐标轴方向)进行求导,而固定其它维度,这样每次只优化一个分量.假设有m个特征个数,坐标轴下降法进参数更新的时候,先固定m-1个值,然后再求另外一个的局部最优解,从而避免损失函数不可导问题。
左梯度下降，右坐标轴下降
在这里插入图片描述
相比梯度下降法而言，坐标下降法不需要计算目标函数的梯度，标在每步迭代中仅需求解一维搜索问题，所以对于某些复杂的问题计算较为简便标。但如果目标函数不平滑的话，坐标下降法可能会陷入非驻点。为了加速收敛，可以采用一个适当的坐标系，例如通过主成分分析获得一个坐标间尽可能不相互关联的新坐标系
平滑与非平滑的函数示例如下图:
在这里插入图片描述
图中红色十字标示的是起始点（-0.5, -1.0），此时f =3.25。现在我们固定x，将f
看成关于y的一元二次方程并求当f最小时y的值：

即，现在自变量的取值就更新成了（-0.5, -0.3）， f = 0.8。

下一步，将新得到的y值固定，将f看成关于x的一元二次方程。