数值最优化—无约束问题的下降算法与线性搜索_. 设目标函数 f : r → r 三阶连续可微,有唯一的极小点 x ,使用固定步长的梯度-CSDN博客

本文链接：https://blog.csdn.net/weixin_41922484/article/details/123143072

目录

一、参考
二、无约束问题解的最优性条件
1. 下降方向
2. 无约束问题解的一阶必要条件
3. 无约束问题解的二阶必要条件
4. 无约束问题解的二阶充分条件

三、下降算法的一般步骤
1.求解无约束问题的下降算法的基本思想
2. 求解无约束问题的下降算法的步骤

四、线性搜索
1. 精确线性搜索—黄金分割法（0.618法）
2. 非精确线性搜索

一、参考

《数值最优化算法与理论》

二、无约束问题解的最优性条件

设 $R^2 \to R$ 连续可微。考虑如下无约束最优化问题：
$\quad (x \in R^n)$

1. 下降方向

设 $\in R^n$ 。若存在数 $\overline{\alpha } > 0$ , 使得：
$f(x+\alpha d) < f(x), \quad (\forall \alpha \in (0, \overline{\alpha }))$
则称d是函数 $f$ 在点 $x$ 处的一个下降方向。

下降方向从几何上可解释为：当从点 $x$ 出发，沿方向 $d$ 移动时，函数 $f$ 的值变化呈单调递减的趋势。若令：
$\phi (\alpha )= f(x+\alpha d)$
则方向 $d$ 是 $f$ 在 $x$ 处的下降方向等价于一元函数 $\phi$ 在原点处单调递减。

定理：设 $f$ 连续可微且 $\nabla f(x) \neq 0$ , 若向量 $d$ 满足 $\nabla f(x)^Td <0$ , 则它是 $f$ 在 $x$ 处的一个下降方向。

证：利用Tayor展开，不难得到：当 $\alpha > 0$ 充分小时：
$f(x+\alpha d)=f(x)+\alpha \nabla f(x)^Td+o(\alpha) < f(x)$
即 $d$ 是 $f$ 在 $x$ 处的一个下降方向。

2. 无约束问题解的一阶必要条件

设 $f:R^n \to R$ 连续可微， $x^*$ 是无约束问题的一个局部最优解，则 $x^*$ 满足：
$\nabla f(x^*)=0$
证明：任给 $\in R^n$ , 由局部最优解的定义，对任意充分小的数 $t > 0$ ，有：
$f(x^*)\leq f(x^*+tp) = f(x^*)+t\nabla f(x^*)^Tp+o(t)$
不等式两端同时减去 $f(x^*)$ 后除 $t$ ，得：
$\leq \nabla f(x^*)^Tp+ \frac {o(t)} {t}$
并令 $\to 0^+$ 可得 $\nabla f(x^*)^Tp \geq 0 , \forall p \in R^n$ 。特别令 $p=-\nabla f(x^*)$ 得：
$-||\nabla f(x^*)||^2=-\nabla f(x^*)^T \nabla f(x^*) \geq 0$

注：这里用到的向量范数为Euclid范数，即对 $\in R^n , ||a||=(a^Ta)^{1/2}$ 。

从而， $\nabla f(x^*) = 0$ 。

3. 无约束问题解的二阶必要条件

设 $f:R^n \to R$ 二次连续可微， $x^*$ 是无约束问题的一个局部最优解，则 $x^*$ 满足：
$\begin{cases} \nabla f(x^*)=0 \\\\ \nabla ^2f(x^*)半正定 \end{cases}$

4. 无约束问题解的二阶充分条件

设 $f:R^n \to R$ 二次连续可微，若 $x^*$ 满足：
$\begin{cases} \nabla f(x^*)=0 \\\\ \nabla ^2f(x^*)正定 \end{cases}$
则 $x^*$ 是无约束问题的一个严格局部最优解。

三、下降算法的一般步骤

1.求解无约束问题的下降算法的基本思想

从某个初始点 $x^{(0)}$ 出发，按照使目标函数值下降的原则构造点列 ${x^{(k)}\}$ , 即点列 ${x^{(k)}\}$ 满足条件 $f(x^{(k+1)}) < f(x^{(k)}), (\forall k = 0,1,···)$ 。算法的最终目标是使得点列 ${x^{(k)}\}$ 中的某个点或某个极限点是无约束最优化问题的解或稳定点。

设 $d^{(k)}$ 是 $f$ 在 $x^{(k)}$ 处的一个下降方向且满足：
$\nabla f(x^{(k)})^T d^{(k)} < 0$
从而，当 $\alpha >0$ 充分小时， $f(x^{(k)}+\alpha d^{(k)}) < f(x^{(k)})$ 。因此，可取 $x^{(k+1)}=x^{(k)}+ \alpha _k d^{(k)}$ , 其中， $\alpha >0$ 使得 $f(x^{(k)}+\alpha _k d^{(k)}) < f(x^{(k)})$ 。在此基础上，我们给出求解无约束问题下降算法的步骤如下。

2. 求解无约束问题的下降算法的步骤

给定初始点 $x^{(0)} \in R^n$ ，精度 $\epsilon >0$ 。令 $k = 0$ 。
若 $||\nabla f(x^{(k)}|| < \epsilon$ ，则终止算法，得解 $x^{(k)}$ 。否则，则转3.
确定下降方向 $d^{(k)}$ ，使得：
$\nabla f(x^{(k)})^T d^{(k)} < 0$
确定步长 $\alpha _k >0$ ，使得：
$f(x^{(k)}+\alpha _k d^{(k)}) < f(x^{(k)})$
令 $x^{(k+1)} = x^{(k)} + \alpha_k d^{(k)}, k=k+1$ 。转2.

四、线性搜索

线性搜索有两种：精确线性搜索和非精确线性搜索。

1. 精确线性搜索—黄金分割法（0.618法）

对于一般非线性函数极小化问题，难以得到精确线性搜索步长的解析表达式。此时可采用数值方法确定步长。

黄金分割法是确定精确线性搜素步长的一种算法。该算法适用于求一元单峰函数的极小值点问题。

在这里插入图片描述
黄金分割法的基本思想是构造闭区间序列 ${[ a_k, b_k]\}$ ，满足 $\bar {\alpha } \in [a_{k+1},b_{k+1}] \subset [a_k, b_k]$ ，且区间的长度 $b_k - a_k$ 按比例缩小，即 $b_{k+1} - a_{k+1} = \lambda (b_k - a_k), \lambda \in (0,1)$ 。从而， $b_k - a_k \to 0$ 。由此可得 $a_k \to \bar {\alpha }, b_k \to \bar {\alpha }$ 。该算法的实现过程如下：

在区间 $a_k, b_k]$ 上对称取两点 $u_k < v_k$ ，即有：
$\frac {v_k - a_k} {b_k - a_k} = \frac {b_k - u_k} {b_k - a_k} = \lambda$
或等价地
$u_k = b_k - \lambda (b_k - a_k), \quad v_k = a_k+ \lambda (b_k - a_k)$
比较函数值 $\phi (u_k)$ 与 $\phi (v_k)$ 的大小，有下列三种情况：

$\phi (u_k) < \phi (v_k)$ 。此时必有 $\bar {\alpha} \in [a_k,v_k]$ 。故令 $a_{k+1},b_{k+1}] = [a_k,v_k]。$
$\phi (u_k) > \phi (v_k)$ 。此时必有 $\bar {\alpha} \in [u_k,b_k]$ 。故令 $a_{k+1},b_{k+1}] = [u_k,b_k]。$
$\phi (u_k) = \phi (v_k)$ 。此时必有 $\bar {\alpha} \in [u_k,v_k]$ 。故令 $a_{k+1},b_{k+1}] = [u_k,v_k]。$

2. 非精确线性搜索

精确线性搜索要求步长 $\alpha _k$ 取到一元函数 $\phi (\alpha )= f(x^{(k)}+\alpha d^{(k)})$ 的最小值点。计算量较大。非精确线性搜索只要求步长 $\alpha _k$ 使得函数 $\phi$ 在点 $\alpha _k$ 处的值 $\phi (\alpha _k)$ (即 $f(x^{(k)} + \alpha _k d^{(k)})$ )较 $\phi (0)$ (即 $f(x^{(k)})$ )有一定量的下降量。因此在计算容易实现。下面介绍一种常用的非精确线性搜索。

Armijo型线性搜索：给定 $\sigma _1 \in (0, 1/2)$ ，取 $\alpha _k >0$ 使得：
$f(x^{(k)}+\alpha _kd^{(k)}) \leq f(x^{(k)}) + \sigma _1 \alpha _k \nabla f(x^{(k)})^Td^{(k)}$
利用函数 $\phi (\alpha )= f(x^{(k)}+\alpha d^{(k)})$ ，上式可等价地写为：
$\phi (\alpha _k) \leq \phi (0) + \sigma _1 \alpha _k \phi '(0)$
由于 $d^{(k)}$ 是 $f$ 在 $x^{(k)}$ 处的下降方向且满足 $\phi '(0) = \nabla f(x^{(k)})^Td^{(k)} < 0$ ，容易证明：上面的不等式对充分小的正数 $\alpha _k$ 均成立。而在计算上，希望步长 $\alpha _k$ 尽可能大。通常，可通过如下方式获得。给定 $\beta >0, \rho \in (0,1)$ 。取步长 $\alpha _k$ 为集合 $\{ \beta \rho ^i , i = 0, 1, ··· \}$ 中使得上面的不等式成立的最大者。该算法实现过程如下：