非线性优化-最优化问题之迭代下降

最新推荐文章于 2021-12-24 10:15:42 发布

liverpool的T9

最新推荐文章于 2021-12-24 10:15:42 发布

阅读量816

点赞数 1

分类专栏：最优化文章标签：非线性优化迭代下降

本文链接：https://blog.csdn.net/weixin_43010548/article/details/89192904

版权

最优化专栏收录该内容

4 篇文章 0 订阅

订阅专栏

$\color{#F00}{主要摘自《非线性优化》}$
$\qquad$ 最优化问题一般使用约束集 $X$ 和目标函数 $f$ 进行表示。集合 $X$ 中包含所有可用的决策 $x$ ，函数 $f (x)$ 将 $X$ 的元素映射到实数集上，表示决策 $x$ 带来的成本损失。目标是寻找 $x^{*}\in X$ ，并满足
$f(x^{*})\ge f(x),\ \forall\in X$ $\qquad$ 假定 $x$ 是一个 $n$ 维向量，即 $x$ 是一个由实数构成的 $n$ 元数组( $x_{1},...,x_{n}$ )，因此约束集 $X$ 是 $n$ 维欧式空间 $\Re^{n}$ 的子集。

必要和充分条件

$\qquad$ 最优性必要条件 令 $x^{*}$ 为 $f:\Re^{n}\mapsto\Re$ 的无约束局部最小值点，并且假设 $f$ 在开集 $S$ 上连续可微， $x^{*}\in S$ ，那么有
$\nabla f(x^{*})=0\qquad(一阶必要条件)$
如果 $f$ 在 $S$ 中是二阶连续可微的，那么有
$\nabla^{2}f(x^{*}):\ 半正定.\qquad(二阶必要条件)$
$\qquad$ 二阶最优性充分条件 令 $f:X\mapsto\Re$ 为开集 $X$ 上的一个二阶可微函数，假设向量 $x^{*}\in S$ 满足条件
$\nabla f(x^{*})=0,\ \nabla^{2}f(x^{*})：正定$ 那么 $x^{*}$ 是 $f$ 上的严格无约束局部极小值点。特别的，存在标量 $\gamma>0$ 和 $\epsilon>0$ 满足
$f(x)\ge f(x^{*})+\frac{\gamma}{2}||x-x^{*}||^{2},\qquad\forall\ x\ 使得||x-x^{*}||<\epsilon$

迭代下降

方向选择（ $d^{k}$ ）

$\qquad$ 针对连续可微函数 $f:\Re^{n}\mapsto\Re$ 的无约束最小化问题，大多数算法基于迭代下降的算法。该方法步骤为：从某点 $x^{0}$ (初始点)开始，接连不断生成向量 $x^{1},x^{2},...$ ，使得 $f$ 在每次迭代中都下降。即
$f(x^{k+1})\leq f(x^{k}),\qquad k=0,1,...,$ 不断降低 $f$ 的值直到达到最小值点。
$\qquad$ 考虑向量构成的半直线
$x_{\alpha}=x+\alpha d,\qquad\forall\alpha\ge0$ 其中方向向量 $d\in\Re^{n}$ 与 $\nabla f(x)$ 呈大于 $90^{\circ}$ 的角，即
$\nabla f(x)^{'}d<0$ $\qquad$ 再次利用泰勒展开，有
$f(x_{\alpha})=f(x)+\alpha\nabla f(x)^{'}d+O(\alpha)$ $\qquad$ 当 $\alpha$ 接近于零时， $\alpha\nabla f(x)^{'}d$ 的值远大于 $o(\alpha)$ ，对于充分小的正数 $\alpha$ ， $f(x+\alpha d)$ 都比 $f (x)$ 小，考虑迭代 $x^{k+1}=x^{k}+\alpha^{k}d^{k},\qquad k=0,1,...$
$\qquad$ 选择下降方向：梯度方法一般可以定义为
$x^{k+1}=x^{k}-\alpha^{k}D^{k}\nabla f(x^{k})$ 其中， $D^{k}$ 是正定对称矩阵，因为 $d^{k}=-D^{k}\nabla f(x^{k})$ ，下降条件为 $\nabla f(x)^{'}d^{k}<0$ 即为 $\nabla f(x^{k})^{'}D^{k}\nabla f(x^{k})>0$ ，因而矩阵 $D^{k}$ 是正定的。
$\qquad$ 最速下降法中 $D^{k}=I,\ k=0,1,...$ 。这时最简单的梯度下降法，但该方法的收敛速度较慢。
$\qquad$ 牛顿法中 $D^{k}=(\nabla^{2}f(x^{k}))^{-1}$ ，其中 $\nabla^{2}f(x^{k})$ 为正定对称矩阵。其思想为在每次迭代中，在当前解 $x^{k}$ 附近最小化 $f$ 的二阶近似，即：
$f(x^{k+1})=f(x^{k})+\nabla f(x^{k})^{'}(x^{k+1}-x^{k})+\frac{1}{2}(x^{k+1}-x^{k})^{'}\nabla^{2}f(x^{k})(x^{k+1}-x^{k})$ 令 $f(x^{k+1})$ 的导数( $\partial f(x^{k+1})/\partial x^{k+1}$ )为0，因而有
$\nabla f(x^{k})+\nabla^{2}f(x^{k})(x^{k+1}-x^{k})=0$ 因而
$x^{k+1}=x^{k}-(\nabla^{2}f(x^{k}))^{-1}\nabla f(x^{k})$ $\qquad$ 牛顿法收敛速度快，但其计算量较大。
$\qquad$ 修正的牛顿方法
$D^{k}=(\nabla^{2}f(x^{0}))^{-1},\qquad k=0,1,...,$ 其中 $\nabla^{2}f(x^{0})$ 是给定的，方法与牛顿法类似，但Hessian矩阵不需要在每次迭代中计算。
$\qquad$ 离散牛顿法
$D^{k}=(H(x^{k}))^{-1},\qquad k=0,1,...,$ 其中 $H(x^{k})$ 是Hessian矩阵的正定对称近似矩阵，通过f的二阶导数的有限差分近似得到的。
$\qquad$ 高斯-牛顿方法
该问题表示为：
$minimize\qquad f(x)=\frac{1}{2}||g(x)||^{2}=\frac{1}{2}\sum_{i=1}^{m}(g_{i}(x))^{2}\\ subject\ to\qquad x\in\Re^{n}$ $\qquad$ 使用泰勒展开 $f(x)=\frac{1}{2}||g(x_{0})+\nabla g(x_{0})(x-x_{0})^{T}||^{2}$ = $\frac{1}{2}g(x_{0})^{2}+2(x-x_{0})^{T}\nabla g(x_{0})g(x_{0})+(x-x_{0})^{}\nabla g(x_{0})^{T}\nabla g(x_{0})(x-x_{0})^{T}$ $\color{#F00}{？？？}$ 令
$\frac{\partial f(x)}{\partial x}=0$ 则
$2\nabla g(x_{0})g(x_{0})+2(x-x_{0})^{}\nabla g(x_{0})^{T}\nabla g(x_{0})=0$ 即
$x=x_{0}-(\nabla g(x_{0})^{T}\nabla g(x_{0}))^{-1}\nabla g(x_{0})g(x_{0})$ 从而， $D^{k}=(\nabla g(x_{0})^{T}\nabla g(x_{0}))^{-1}$ 。
$\qquad$ 坐标块下降法
$\qquad$ 目标函数每次迭代沿着一个坐标分量最小化，不仅化简了搜索方向的计算，而且是步长选择变得更加容易，因为沿着分量方向的线性最小化相对容易求的。
$x_{i}^{k+1}\in arg\mathop{min}\limits_{\xi\in \Re}f(x_{1}^{k+1},...,x_{i-1}^{k+1},\xi,x_{i+1}^{k},...,x_{n}^{k})$ $\qquad$ 其一个重要优势是适合并行计算，假设存在分量 $x_{i_{1}},...,x_{i_{m}}$ 的子集，分量子集与目标函数之间是非耦合的，即 $f (x)$ 可以表示为 $\sum_{r=1}^{m}f_{i_{r}}(x)$ ，对于每一个r， $f_{i_{r}}(x)$ 的取值与所有 $s\neq r$ 的 $x_{i_{s}}$ 无关，此时可以实现m个分量的下降迭代独立并行。对于能分割成p个独立分量子集的特殊问题，在p步内实现分量下降迭代的一个完整循环。
$x_{i_{r}}^{k+1}\in arg\mathop{min}\limits_{\xi}f_{i_{r}}(x^{k}+\xi e_{i_{r}}),\qquad r=1,...,m.$ $\qquad$ 共轭梯度下降

步长选择( $\alpha^{k}$ )

$\qquad$ 最小化准则 在此准则中，步长 $\alpha^{k}$ 的选择使得目标函数沿着 $d^{k}$ 方向实现最小化，即 $\alpha^{k}$ 满足
$f(x^{k}+\alpha^{k}d^{k})=\mathop{min}\limits_{\alpha\ge0}f(x^{k}+\alpha d^{k})$ 当 $\alpha$ 的取值在区间 $[0, s]$ 上进行选择同时使目标函数具有最大下降时，称为有限最小化准则。该准则需要使用一维线性搜索算法实现。
$\qquad$ 步长逐渐减小的Armijo准则 在此准则中，可以避免线收索带来的计算量的问题。该方法为逐渐减小步长，首先选择初始步长 $s$ ，若 $f(x^{k}+sd^{k})\ge f(x^{k})$ ，那么利用某个因子减少步长，直到 $f$ 值出现下降，实践中该方法常被用到，使用Armijo准则可以避免收敛性的困难。在该准则中固定标量 $s,\beta$ 和 $\sigma$ ，其中 $0<\beta<1$ ，令 $\alpha^{k}=\beta^{m_{k}}s$ ，
$f(x^{k})-f(x^{k}+\beta^{m}sd^{k})\ge-\sigma\beta^{m}s\nabla f(x^{k}) ^{'}d^{k}$ $\qquad$ 不断试验步长 $\beta^{m}s,m=0,1,...,$ 直到m满足上述条件， $\sigma$ 选择为接近零的正数，缩减因子 $\beta$ 通常在1/2和1/10之间选择。
$\qquad$ $G o l d s t e i n$ 准则 选定一个固定的标量 $\sigma\in(0,1/2)$ ，选择 $\alpha^{k}$ 满足
$\sigma\leq\frac{f(x^{k}+\alpha^{k}d^{k})-f(x^{k})}{\alpha^{k}\nabla f(x^{k})^{'}d^{k}}\leq1-\sigma$ $\qquad$ 固定步长准则 采用一个固定的步长 $s > 0$ ，即
$\alpha^{k}=s,\qquad k=0,1,...,$ $\qquad$ 缩减步长准则 步长逐渐缩减到零，即 $\alpha^{k}\rightarrow0$ 。

liverpool的T9

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
非线性优化-最优化问题之迭代下降

主要摘自《非线性优化》\color{#F00}{主要摘自《非线性优化》}主要摘自《非线性优化》\qquad最优化问题一般使用约束集XXX和目标函数fff进行表示。集合XXX中包含所有可用的决策xxx，函数f(x)f(x)f(x)将XXX的元素映射到实数集上，表示决策xxx带来的成本损失。目标是寻找x∗∈Xx^{*}\in Xx∗∈X，并满足f(x∗)≥f(x), ∀∈Xf(x^{*...
复制链接

扫一扫