最速下降法/梯度下降法

最新推荐文章于 2024-08-17 23:32:55 发布

JasonQ_NEU

最新推荐文章于 2024-08-17 23:32:55 发布

阅读量3.1w

点赞数 15

分类专栏：机器学习最优化文章标签：机器学习最优化

本文链接：https://blog.csdn.net/u012430664/article/details/78404844

版权

机器学习同时被 2 个专栏收录

14 篇文章 7 订阅

订阅专栏

最优化

11 篇文章 5 订阅

订阅专栏

梯度下降法在机器学习中是经常用到的一种方法，很多人也把梯度下降法看作是最速下降法，但是这两种方法好像还有一些细微差别，wikipedia中Gradient descent的描述中有这么一句：Gradient descent is also known as steepest descent. However, gradient descent should not be confused with the method of steepest descent for approximating integrals.由于我也没有弄明白梯度下降和最速下降的区别，所以本文中将会用最速下降来统一说明。
在讲解梯度下降算法之前，先讲一下梯度下降的解决的问题是什么。梯度下降解决的是无约束最优化问题，与之相对应的是约束最优化问题。无约束最优化问题的一般形式为：

m i n f (x)

$min\quad f(x)$ 其中

f:Rn→R1 $f:R^n \to R^1$ 。这一问题是指在

Rn $R^n$ 中寻找一点

x∗ $x^*$ ，使得对于

∀x∈Rn $\forall x \in R^n$ ，都与

f (x *) \leq f (x)

$f(x^*)\le f(x)$ 点

x∗ $x^*$ 就是全局最优解。
梯度下降法是多元函数求极值最早的方法。梯度下降法简单直观，但是收敛速度慢。之所以收敛速度慢是由于梯度下降会出现锯齿现象，将会慢慢讲解。

基本思想

最速下降法通过迭代的方式求函数 $f(x)$ 的最优解。给定一个初始点，通过迭代找到下一个点，我们希望找到的下一个点能比上一个点有更优的函数值。那么最速下降法最重要的一点就是应该如何迭代，这用到了上一篇博客中的一个小知识：给定点 $x_k$ ，点 $x_k$ 处的负梯度方向为最速下降方向，至少在点 $x_k$ 的临近范围内是这样的。所以我们可以在点 $x_k$ 处选择搜索方向

p k = - \nabla f (x k) 。

$p_k=-\nabla f(x_k)。$ 在选定了搜索方向之后我们就可以沿着搜索方向进行搜索，然后选择点

xk+1 $x_{k+1}$ ，其中

x k + 1 = x k - t k \nabla f (x k)

$x_{k+1}=x_k-t_k\nabla f(x_k)$ ，其中

tk $t_k$ 为沿负梯度方向的搜索距离，我们称为步长因子。我们把上式成为最速下降迭代公式，可以简记为

x k + 1 = 1 s (x k, - \nabla f (x k))

$x_{k+1}=1s(x_k,-\nabla f(x_k))$ ，由该公式产生的算法称为最速下降法。
在知道迭代公式之后，我们希望得到步长因子

tk $t_k$ 能够满足

f (x k - t k \nabla f (x k)) = m i n f (x k - t \nabla f (x k))

$f(x_k-t_k\nabla f(x_k))=min f(x_k-t\nabla f(x_k))$ ，即我们希望

xk+1 $x_{k+1}$ 为搜索方向上函数值“最小”的点。
对于任意给定的函数

f(x) $f(x)$ ，最速下降法不一定能找到函数的全局最优点（全局极小点），可能会找找到函数的局部极小点。

算法描述

为了书写简单，记 $g_k=g(x_k)=\nabla f(x_k)$ 。
最速下降法
已知：目标函数 $f(x)$ 以及梯度 $g(x)$ ，H终止准则所需要的终止限 $\epsilon_1，\epsilon_2，\epsilon_3$

1:选择初始点 $x_0$ ；计算 $f_0= f(x_0)$ ， $g_0=g(x_0)$ ；置 $k=0$ ；
2:作直线搜索 $x_{k+1}=1s(x_k, -g_k)$ ；计算 $f_{k+1}=f(x_{k+1})$ ， $g_{k+1}=g(x_{k+1})$ ；
3:判断H终止准则是否满足：若满足，则输出 $x_{k+1}$ ， $f_{k+1}$ 否则，置 $k=k+1$ ，转2。

关于直线搜索和H终止准则我将会在在下一篇博客中做补充说明。直线搜索是为了求解一元函数极小化问题而的迭代方法（在算法描述中使用直线搜索来找最优的 $t_{k}$ ，从而通过公式 $x_{k+1}=x_k-t_k\nabla f(x_k)$ 找到下一个迭代点 $x_{k+1}$ ，需要知道的是在这里求解 $t_k$ 时，并一定使用迭代法，在一元函数可微或者可导的情况下，也可以直接通过导数方法进行求解），在这里是为了求得每一步的步长因子 $t_k$ ；H终止准则是一种终止条件，常见的终止条件如函数值的变化范围小于阈值 $\epsilon$ 时终止。