【最优化方法】无约束优化问题（最速下降法、牛顿法、最小二乘）

撕得失败的标签

已于 2024-01-02 07:57:11 修改

阅读量1.1k

点赞数 26

分类专栏：最优化方法文章标签：线性代数最小二乘法最速下降法牛顿法无约束最优化

于 2024-01-02 00:02:09 首次发布

本文链接：https://blog.csdn.net/qq_61828116/article/details/135330691

版权

最优化方法专栏收录该内容

8 篇文章 2 订阅

订阅专栏

文章目录

最速下降法
- 示例
牛顿法
阻尼牛顿法
- 示例
最小二乘问题

最速下降法

最速下降法（Steepest Descent Method）是一种基于负梯度方向进行迭代的最优化算法，用于寻找一个函数的最小值。该方法也被称为梯度下降法，是一种迭代的一阶优化算法。

算法的基本思想是从当前点出发，沿着当前点的负梯度方向，以一定的步长（学习率）移动到新的点，重复这个过程直至达到停止条件。

下面是最速下降法的基本步骤：

给出 $x_0\in\mathbf{R}^n,0\leqslant\varepsilon\ll1,k:=0$
计算 $d^k=-g_k$ ；如果 $\|g_k\|\leqslant\varepsilon$ ，停止
由线性搜索求步长因子 $\lambda_k$
计算 $x_{k+1}=x_k+\lambda_kd^k$
$k := k + 1$ ，转步 2

最速下降法的优点是简单易理解，容易实现。然而，它可能在某些情况下收敛速度较慢。

在实践中，有一些改进的方法，如共轭梯度法、牛顿法等，可以在某些情况下加速收敛。最速下降法常被视为这些更高级方法的基础。

对于正定二次函数
$f(x)=\frac{1}{2}x^{T}Gx+q^{T}x+r$

其中 $G\in\mathbf{R}^{n\times n}$ 正定矩阵， $q\in\mathbf{R}^n$ , $r\in\mathbf{R}$

由精确一维线搜索确定的步长
$\lambda_k=-\frac{\left(g_k\right)^Td^k}{\left(d^k\right)^TGd^k}.$

证明： $g (x) = G x + q, G (x) = G$ ，其中 $G\in\mathbf{R}^{n\times n}$ 正定。

由精确一维线搜索确定的步长 $\lambda_k=\min\limits_{\lambda >0}\varphi(\lambda)=f(x^k+\lambda d^k)$ ，满足
$0=\varphi^{\prime}(\lambda_{k})=\nabla f(x^{k}+\lambda_{k}d^{k})^{\mathrm{T}}d^{k}=\left(G(x^{k}+\lambda_{k}d^{k})+q\right)^{T}d^{k}$ $=\left(Gx^{k}+q\right)^{T}d^{k}+\lambda_{k}\left(d^{k}\right)^{T}Gd^{k}=g_{k}^{T}d^{k}+\lambda_{k}(d^{k})^{T}Gd^{k},$

所以
$\lambda_{k}=-\frac{(g_{k})^{T}d^{k}}{(d^{k})^{T}G\:d^{k}}.$

注意：由于 $d^k=-g_k$ ，所以
$\lambda_{k}=\frac{\left(g_{k}\right)^{T}g_{k}}{\left(g_{k}\right)^{T}G\:g_{k}}.$

那么，利用采用精确一维线搜索的最速下降法求解目标函数为正定二次函数的无约束极小化问题，迭代格式为：
$x^{k+1}=x^{k}-\frac{\left(g_{k}\right)^{T}g_{k}}{\left(g_{k}\:\right)^{T}G\:g_{k}}g_{k}.$

示例

利用采用精确一维线搜索的最速下降法求解，其中初始点 $x^0=(2,1)^T$
$\min f(x)=\frac{1}{2}x_1^2 + x_2^2$

解：下述为前两步的计算过程，后面通过数学归纳求解
$\begin{aligned} & g(x) = (x_1, 2x_2)^T, G(x) = \begin{bmatrix} 1 & 0 \\ 0 & 2 \\ \end{bmatrix} > 0 \\ & g_0 = g(x^0) = (2, 2)^T \\ & x^1 = x^0 + \lambda_0 d^0 = x^0 - \frac{(g_0)^Tg_0}{(g_0)^TGg_0}g_0= \begin{bmatrix} 2 \\ 1 \\ \end{bmatrix} - \frac{8}{12} \begin{bmatrix} 2 \\ 2 \\ \end{bmatrix} = \frac{1}{3} \begin{bmatrix} 2 \\ -1 \\ \end{bmatrix} \\ & g_1 = g(x^1) = \frac{1}{3}(2, -2)^T \\ & x^2 = x^1 + \lambda_1 d^1 = x^1 - \frac{(g_1)^Tg_1}{(g_1)^TGg_1}g_1 = \frac{1}{3} \begin{bmatrix} 2 \\ -1 \\ \end{bmatrix} - \frac{2}{9} \begin{bmatrix} 2 \\ -2 \\ \end{bmatrix} = (\frac{1}{3})^2 \begin{bmatrix} 2 \\ (-1)^2 \\ \end{bmatrix} \\ & g_2 = g(x^2) = \frac{1}{9}(2, 2)^T \end{aligned}$

类似计算并归纳可得迭代点列为 $x^k=(\frac{1}{3})^k\begin{bmatrix}2 \\ (-1)^k\end{bmatrix}$

当 $k\to\infty$ 时，有 $x^k\to x^*=(0,0)^T.$

牛顿法

选取初始数据。取初始点 $x_0$ ，终止误差 $\varepsilon>0$ ，令 $k := 0.$
计算 $g_k$ ，若 $\|g_k\|\leqslant \varepsilon$ ，算法终止，输出 $x_k.$
计算 $G_k$ ，并由牛顿方程 $d_k=-G_k^{-1}g_k$ 解出 $d_k.$
令 $x_{k+1}:=x_k+\lambda_kd_k,k:=k+1$ ，转步 2

迭代公式：
$x_{k+1}=x_k-G_k^{-1}g_k$

阻尼牛顿法

选取初始数据。取初始点 $x_0$ ，终止误差 $\varepsilon>0$ ，令 $k := 0.$
计算 $g_k$ ，若 $\|g_k\|\leqslant \varepsilon$ ，算法终止，输出 $x_k.$
计算 $G_k$ ，并由牛顿方程 $d_k=-G_k^{-1}g_k$ 解出 $d_k.$
由线搜索计算步长 $\lambda_{k}$ 使得
$f(x_{k}+\lambda_{k}d_{k})=\min_{\alpha\geqslant0}f(x_{k}+\lambda_{k}d_{k})$
令 $x_{k+1}:=x_k+\lambda_kd_k,k:=k+1$ ，转步 2

迭代公式：
$x_{k+1}=x_k-\lambda_kG_k^{-1}g_k$

示例

利用阻尼牛顿法求 $f(x_1,x_2) = x_1^2+2x_2^2-4x_1-2x_1x_2$ 的极小值，取 $x_0 = (1,1)^T$

解：
$\begin{aligned} & g(x)=[2x_1-4-2x_2,4x_2-2x_1]^T,~ G(x)=\begin{bmatrix} 2 & -2 \\ -2 & 4 \end{bmatrix},~ G^{-1}=\begin{bmatrix} 1 & \frac{1}{2} \\ \frac{1}{2} & \frac{1}{2} \end{bmatrix} \\ & x_0 = (1,1)^T,~ g_0 = [-4,2]^T,~ d_0 = -G^{-1}g_0 = [3,1]^T \\\\ & \varphi(\lambda_0)=f(x_{0}+\lambda _0d_{0})=f(1+3\lambda_0,1+\lambda_0)=5\lambda_0^{2}-10\lambda_0-3,\\\\ & \varphi^{\prime}(\lambda_0)=10\lambda_0-10=0,~ \lambda_{0}=1 \\\\ & x_1 = x_0 - \lambda_{0}d_0 = (1,1)^T + (3,1)^T = (4,2)^T \\ \end{aligned}$

最终得出 $x = (4, 2)^T,~~~ \min f(x) = -8$

最小二乘问题

目标函数
$\min \: q(x) = \frac{1}{2}||Ax-b||^2$

其中 $A$ 是一个矩阵， $x$ 和 $b$ 是向量。这个目标函数是为了找到一个向量 $x$ ，使得 $A x$ 尽可能接近 $b$ 。以下是化简过程：

首先，我们知道向量的模长公式为 $\sqrt{v^Tv}$ ，所以我们可以将目标函数写为：
$\frac{1}{2}(Ax-b)^T(Ax-b)$

接下来，我们展开右边的项：
$\frac{1}{2}(x^TA^TAx - x^TA^Tb - b^TAx + b^Tb)$

注意到， $x^TA^Tb$ 和 $b^TAx$ 是共轭转置的关系，同时等于一个标量，所以相等，因此可以合并成一项。这样就可以得到：
$\frac{1}{2}x^TA^TAx - b^TAx + \frac{1}{2}b^Tb$

这就是化简后的目标函数。

要最小化这个目标函数，我们需要对它求导并令其等于0。具体步骤如下：
$\nabla q(x) = A^TAx - A^Tb = 0$

解这个方程，可以得到最优解 $x^*$
$x^* = (A^TA)^{-1}A^Tb$

这就是其化简过程以及如何找到最小值

撕得失败的标签

关注

26
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
【最优化方法】无约束优化问题（最速下降法、牛顿法、最小二乘）

最速下降法（Steepest Descent Method）是一种基于负梯度方向进行迭代的最优化算法，用于寻找一个函数的最小值。算法的基本思想是从当前点出发，沿着当前点的负梯度方向，以一定的步长（学习率）移动到新的点，重复这个过程直至达到停止条件。在实践中，有一些改进的方法，如共轭梯度法、牛顿法等，可以在某些情况下加速收敛。是共轭转置的关系，同时等于一个标量，所以相等，因此可以合并成一项。最速下降法的优点是简单易理解，容易实现。利用采用精确一维线搜索的最速下降法求解，其中初始点。
复制链接

扫一扫