凸优化——凸函数及凸优化

最新推荐文章于 2024-06-18 18:16:12 发布

爱学习的吨吨a

最新推荐文章于 2024-06-18 18:16:12 发布

阅读量782

点赞数

分类专栏：凸优化

本文链接：https://blog.csdn.net/qq_30516823/article/details/117672009

版权

凸优化专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了凸函数与凸优化的基础知识，包括凸函数的定义、性质和判别准则，以及凸优化问题的解的特性。讨论了无约束优化问题的最优性条件，并概述了几种迭代下降算法，如线搜索方法和信赖域方法，同时讲解了步长选择的几种策略。此外，还提供了终止条件和下降方向的选择方法。

摘要由CSDN通过智能技术生成

凸函数及凸优化

今天开坑凸优化了，冲鸭🦆！

1.凸函数定义

$S$ 为 $R^n$ 的非空集合，f是定义在S上的实函数，如果对任意 $X^{(1)},X^{(2)}\in{S}$ , $\lambda\in{(0,1)}$ ,均有 $f(\lambda X^{(1)}+(1-\lambda)X^{(2)})\leq\lambda f(X^{(1)})+(1-\lambda)X^{(2)}$ ,则 $f$ 是 $S$ 上的凸函数。

2. 凸函数的一些性质

设 $f$ 是定义在凸集 $S$ 上的凸函数，实数 $\lambda \geq0$ ，则 $\lambda f$ 也是定义在 $S$ 上的凸函数
$f_1$ , $f_2$ 为定义在凸集 $S$ 上的凸函数, $f_2+f_1$ 也是凸集上的凸函数
$f_1，f_2，...,f_k$ 是定义在 $S$ 上的凸函数, $\lambda _1,\lambda _2,..., \lambda k \geq0$ , $\sum_{i=0}^n \lambda _i f_i$ 也是凸函数
$S$ 是 $R^n$ 中一个非空凸集， $f$ 是定义在 $S$ 上的凸函数， $\alpha$ 为一个实数，水平集 $S_\alpha= \{x|x\in S,f(x)\leq \alpha\}$ 是凸集。
$S$ 是 $R^n$ 中一个凸集， $f$ 是定义在 $S$ 上的凸函数，则 $f$ 在 $S$ 的内部连续。
$S$ 是 $R^n$ 中一个凸集， $f$ 是定义在 $S$ 上的凸函数， $f$ 在 $S$ 上的局部极小点是全局极小点，且极小点的集合为凸集合。

3.凸函数的判别

（1） $S$ 是 $R^n$ 中一个凸集， $f$ 是定义在 $S$ 上的可微函数，则 $f (x)$ 为凸函数的充要条件是对任意两点 $X^{(1)},X^{(2)}\in{S}$ ,都有：
$f(x^{(2)}) \geq f(x^{(1)})+\nabla f(x^{(1)})^T(x^{(2)}-x^{(1)})$ .
即任意 $f(x^{(2)})$ 在切线上方。
在这里插入图片描述
(2) $S$ 是 $R^n$ 中一个凸集， $f$ 是定义在 $S$ 上的二次可微函数，则 $f (x)$ 为凸函数的充要条件是对任意一点 $X\in{S}$ 处的Hesse矩阵半正定（即Hesse特征值大于等于0），即： $\nabla^2f(x)\geq0$ 。

4.凸优化问题定义

$p) minf(x_1,x_2,...,x_n)$
$\left\{ \begin{aligned} g_i(x_1,x_2,...,x_n)\leq0,i=1,...,m \\ h_i(x_1,x_2,...,x_n)=0,i=1,...,I \\ \end{aligned} \right.$
$g_i$ 为凸函数， $h_i$ 为线形函数。

对于凸优化问题，局部最优解即为全局最优解
证明：
在这里插入图片描述

$X^*\in S为最优解 \Leftrightarrow\nabla f(X^*)^T(X-X^*)\geq0$
即 $X^*\in S为最优解 \Leftrightarrow-\nabla f(X^*)^TX^*\geq-\nabla f(X^*)^TX$
证明：
在这里插入图片描述

几何解释：

令 $-\nabla f(X^*)^T为\alpha^T$ ,上式为： $\alpha^TX^*\geq\alpha^TX$ ,当 $\alpha\neq0$ ，负梯度方向可确定支撑超平面。 $X^*$ 为最优解，其负梯度与凸集内任一点X的连线所成的角 $90^o$ 。即 $\Leftrightarrow-\nabla f(X^*)^T(X-X^*)\leq0$
在这里插入图片描述
支撑超平面如下图：

5.无约束问题的最优性条件

（1）如果 $f (x)$ 为凸函数，则 $X^*$ 是最优解 $\Leftrightarrow\nabla f(X^*)=0$
（2） $f (x)$ 为一般函数：
必要条件：若 $X^*$ 最优，则(1) $\nabla f(X^*)=0$ (2) $\nabla^2 f(X^*)\geq0$
证明：
(1) $\nabla f(X^*)=0$
在这里插入图片描述
(2) $\nabla^2 f(X^*)\geq0$
利用 $X^*$ 点处的泰勒展开

充分条件：若 $\nabla f(X^*)=0$ 且 $\nabla^2 f(X^*)>0$ ，则 $X^*$ 严格最优

6.算法概述

迭代下降算法：给定初始点 $X^*$ ，产生点序列 $\{X^k\}^\infin_{k=1}$ ，并且 $f(x^{k+1})<f(X^k)$ 。

判断是否为找的点
找到下一个点

如何从当前点 $X^k$ 迭代找到下一点 $X^{k+1}$ ?

$线搜索方法：X^k,找到下降方向d^k,确定步长\alpha_k(X^{k+1}=X^k+\alpha_kd^*)$
$信赖域方法：X^k,先确定要走的范围，再确定方向$

基于线搜索的下降算法基本思路：

$step 0 ：给定初始点X^0$ , $k = 0$
$step 1: 判断X^k$ 是否满足终止条件；是，终止
$step 2 ：寻找X^k$ 处的下降方向 $d^k$
$选择合适的步长\alpha_k>0，使(f(X^k+\alpha_kd^k)<f(X^k))$
$令X^{k+1}=X^k+\alpha_kd^k$ ， $k = k + 1$ ，转 $s t e p 1$

其中有四个关键指标:

终止条件

$\left\{\begin{matrix}||\nabla f(X^k)||_2\leq \epsilon，用得多\\|| X^k-X^{k+N}||_2\leq\epsilon \\f(X^k)-f(X^{k+N})\leq\epsilon\end{matrix} \right.$

下降方向

负梯度方向(最速下降法)
牛顿方向
…

步长问题

$\varphi =f(X^k+\alpha_kd^k)$ 关于 $\alpha$ 的一元函数，通过 $min\varphi(\alpha)$ 确定步长

可通过线搜索方法确定

目标： $min\varphi(\alpha)(\alpha>0)$

基于搜索区间的直接搜索法
搜索区间：包含 $\alpha^*$ ;单谷: $a_0,b_0]$
确定新的搜索区间：选取 $\lambda,\mu\in(a_0,b_0),且\lambda<\mu$
(1) 如果 $\varphi(\lambda)<\varphi(\mu):新区间为[a_1,b_1]=[a_0,\mu]$
(2) 如果 $\varphi(\lambda)>\varphi(\mu):新区间为[a_1,b_1]=[\lambda,b_0]$
均匀搜索法
令 $\delta=(b_0-a_0)/N,\alpha_i=a_0+i\delta,i=1,...,N-1$

(1) 比较相邻三个点对应的函数值，若对于某个 $i$ 有 $\varphi(\alpha_{i-1})>\varphi(\alpha_{i})<\varphi(\alpha_{i+1})$ ，则 $\alpha^*\in[\alpha_{i-1},\alpha_{i+1}]$

(2)得到新的搜索区间 $[a_1,b_1]=[\alpha_{i-1},\alpha_{i+1}]$
0.618法
令 $\tau=(\sqrt5-1)/2(\approx0.618),\lambda=a_0+(1-\tau)(b_0-a_0)，\mu=a_0+\tau(b_0-a_0))$
（1）若 $\varphi(\lambda)<\varphi(\mu)，则\alpha^*\in[a_0,\mu],产生新的搜索区间$
（2）若 $\varphi(\lambda)>\varphi(\mu)，则\alpha^*\in[\lambda,b_0],产生新的搜索区间$
基于导数信息的二分法(要求： $\varphi(\alpha)$ 能求导才可以)
记区间中点 $\lambda=(b_0+a_0)/2,计算该点导数值\varphi'(\lambda)$
(1) 若 $\varphi'(\lambda)=0，则\alpha^*=\lambda$
(2) 若 $\varphi'(\lambda)<0，则\alpha^*\in[\lambda,b_0]$ （函数值下降）
(3) 若 $\varphi'(\lambda)>0，则\alpha^*\in[a_0,\lambda]$ （函数值上升）
非精确性搜索
Armijo条件： $\varphi(\alpha)\leq\varphi(0)+C_1\alpha\varphi'(0),0<C_1<1$

reference

支撑超平面的图来源自：https://blog.csdn.net/wangchy29/article/details/86497876.
文章主要知识点均来自于b站崔老师的最优化课程，强烈安利：https://www.bilibili.com/video/BV1pk4y1R7WS?share_source=copy_web.

爱学习的吨吨a

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
凸优化——凸函数及凸优化

凸函数及凸优化今天开坑凸优化了，冲鸭????！1.凸函数定义SSS为Rn\R^nRn的非空集合，f是定义在S上的实函数，如果对任意X(1),X(2)∈SX^{(1)},X^{(2)}\in{S}X(1),X(2)∈S,λ∈(0,1)\lambda\in{(0,1)}λ∈(0,1),均有f(λX(1)+(1−λ)X(2))≤λf(X(1))+(1−λ)X(2)f(\lambda X^{(1)}+(1-\lambda)X^{(2)})\leq\lambda f(X^{(1)})+(1-\lambda)X^
复制链接

扫一扫

专栏目录