凸函数学习

最新推荐文章于 2024-07-12 18:02:43 发布

Nightmare004

最新推荐文章于 2024-07-12 18:02:43 发布

阅读量1.1k

点赞数

分类专栏：数学文章标签：算法

本文链接：https://blog.csdn.net/qq_39942341/article/details/121362924

版权

数学专栏收录该内容

143 篇文章 18 订阅

订阅专栏

前置知识

凸集

凸函数

设函数 $C\to \mathbb{R}$ 是定义在凸集 $C\subseteq \mathbb{R}^n$ 的，
如果
$f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})\le \theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})\quad \forall \boldsymbol{x}_1,\boldsymbol{x}_2\in C,\lambda \in \left[0,1\right]$
则称 $f$ 为凸函数

严格凸函数

设函数 $C\to \mathbb{R}$ 是定义在凸集 $C\subseteq \mathbb{R}^n$ 的，
如果
$f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})\le \theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})\quad \forall \boldsymbol{x}_1,\boldsymbol{x}_2\in C,\mathbf{x}_1\neq \mathbf{x}_2,\lambda \in \left(0,1\right)$
则称 $f$ 为严格凸函数

强凸函数

若 $\exists m>0$ ,使得
$g(\boldsymbol{x})=f(\boldsymbol{x})-\frac{m}{2}\Vert x\Vert^2$
为凸函数，则称 $f(\boldsymbol{x})$ 为强凸函数，其中 $m$ 为强凸参数
$\begin{aligned} &\quad f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})\\ &=g(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})+\frac{m}{2}\Vert \theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\Vert^2\\ &\le \theta g(\boldsymbol{x})+(1-\theta)g(\boldsymbol{y})+\frac{m}{2}\Vert \theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\Vert^2\\ &=\theta f(\boldsymbol{x})-\frac{m}{2}\theta\Vert \boldsymbol{x}\Vert^2+(1-\theta)f(\boldsymbol{y})-\frac{m}{2}(1-\theta)\Vert \boldsymbol{y}\Vert^2+\frac{m}{2}\Vert \theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\Vert^2\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})+\frac{m}{2}(\Vert \theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\Vert^2-\theta\Vert \boldsymbol{x}\Vert^2-(1-\theta)\Vert \boldsymbol{y}\Vert^2)\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})+\frac{m}{2}(\sum (\theta x_i+(1-\theta)y_i)^2-\theta\sum x_i^2-(1-\theta)\sum y_i^2)\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})+\frac{m}{2}(\theta(\theta-1)\sum x_i^2-(1-\theta)\theta\sum y_i^2+2\theta(1-\theta)\sum x_iy_i)\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})-\frac{m}{2}\theta(1-\theta)(\sum x_i^2+\sum y_i^2-2\sum x_iy_i)\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})-\frac{m}{2}\theta(1-\theta)\Vert \boldsymbol{x}-\boldsymbol{y}\Vert^2 \end{aligned}$
所以等价定义
若 $\exists m>0$ ,使得 $\forall x,y\in \bold{dom}f,\theta\in(0,1)$
有
$f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})\le \theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})-\frac{m}{2}\theta(1-\theta)\Vert \boldsymbol{x}-\boldsymbol{y}\Vert^2$
则称 $f(\boldsymbol{x})$ 为强凸函数，其中 $m$ 为强凸参数

凸函数判定

定理1

$f(\boldsymbol{x})$ 是凸函数当且仅当 $\forall \boldsymbol{x} \in \bold{dom}\ f,\boldsymbol{v}\in\mathbb{R}^n,g:\mathbb{R}\to \mathbb{R},$
$g(t)=f(\boldsymbol{x}+t\boldsymbol{v}),\bold{dom}\ g=\{t\mid\boldsymbol{x}+t\boldsymbol{v}\in\bold{dom}\ f\}$
是凸函数
证明：
必要性：设 $f(\boldsymbol{x})$ 是凸函数
$\forall t_1,t_2\in \bold{dom}\ g,\theta\in(0,1)$
$\boldsymbol{x}+t_1\boldsymbol{v}\in\bold{dom}\ f\\ \boldsymbol{x}+t_2\boldsymbol{v}\in\bold{dom}\ f\\$
由 $\bold{dom}\ f$ 是凸集，立即推
$\boldsymbol{x}+(\theta t_1+(1-\theta)t_2)\boldsymbol{v}\in\bold{dom}\ f$
所以 $\theta t_1+(1-\theta)t_2\in \bold{dom}\ g$ ,即 $\bold{dom}\ g$ 为凸集
$\begin{aligned} g\left(\theta t_{1}+(1-\theta) t_{2}\right) &=f\left(\boldsymbol{x}+\left(\theta t_{1}+(1-\theta) t_{2}\right) \boldsymbol{v}\right) \\ &=f\left(\theta\left(\boldsymbol{x}+t_{1} \boldsymbol{v}\right)+(1-\theta)\left(\boldsymbol{x}+t_{2} \boldsymbol{v}\right)\right) \\ & \leqslant \theta f\left(\boldsymbol{x}+t_{1} \boldsymbol{v}\right)+(1-\theta) f\left(\boldsymbol{x}+t_{2} \boldsymbol{v}\right) \\ &=\theta g\left(t_{1}\right)+(1-\theta) g\left(t_{2}\right) . \end{aligned}$
所以 $g (t)$ 是凸函数

充分性：
取 $\boldsymbol{v}=\boldsymbol{y}-\boldsymbol{x},t_1=0,t_2=1$
由 $\bold{dom}\ g$ 是凸集可知， $\theta\cdot 0+(1-\theta)\cdot 1\in \bold{dom}\ g$
即 $\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\in\bold{dom}\ f$ 是凸集
$\begin{aligned} g(1-\theta) &=g\left(\theta t_{1}+(1-\theta) t_{2}\right) \\ & \leqslant \theta g\left(t_{1}\right)+(1-\theta) g\left(t_{2}\right) \\ &=\theta g(0)+(1-\theta) g(1) \\ &=\theta f(x)+(1-\theta) f(y) \end{aligned}$
$g(1-\theta)=f( \boldsymbol{x}+(1-\theta)(\boldsymbol{y}- \boldsymbol{x}))=f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})$
所以 $\boldsymbol{x})$ 是凸函数

一阶条件

设 $f:C\to \mathbb{R}$ 是定义在凸集 $C\subseteq \mathbb{R}^n$ 的连续可微的函数，那么 $f$ 是凸函数当且仅当
$f(\boldsymbol{y}) \geqslant f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x}), \quad \forall \boldsymbol{x}, \boldsymbol{y} \in C$
证明：
必要性： $f$ 是凸函数
如果 $\mathbf{x}=\mathbf{y}$ ，显然成立
设 $\mathbf{x}\neq \mathbf{y}$
$\forall \boldsymbol{x},\boldsymbol{y}\in C$ ,以及 $\lambda \in\left(0,1\right]$ ,有
$\begin{aligned} \lambda f(\boldsymbol{y})+(1-\lambda) f(\boldsymbol{x}) &\geqslant f(\boldsymbol{x}+\lambda(\boldsymbol{y}-\boldsymbol{x}))\\ f(\boldsymbol{y})-f(\boldsymbol{x}) &\geqslant \frac{f(\boldsymbol{x}+\lambda(\boldsymbol{y}-\boldsymbol{x}))-f(\boldsymbol{x})}{\lambda} \end{aligned}$
令 $\lambda\to 0^+$ ,利用保号性
$f(\boldsymbol{y})-f(\boldsymbol{x}) \geqslant \lim _{\lambda \rightarrow 0^+} \frac{f(\boldsymbol{x}+\lambda(\boldsymbol{y}-\boldsymbol{x}))-f(\boldsymbol{x})}{\lambda}=\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x})$
充分性：
设 $\boldsymbol{x},\boldsymbol{y}\in C$ ,以及 $\lambda \in(0,1)$
设 $\boldsymbol{z}=\lambda\boldsymbol{x}+(1-\lambda)\boldsymbol{y}$
$\begin{aligned} &f(\boldsymbol{x}) \geqslant f(\boldsymbol{z})+\nabla f(\boldsymbol{z})^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{z}) \\ &f(\boldsymbol{y}) \geqslant f(z)+\nabla f(\boldsymbol{z})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{z}) \end{aligned}$
于是
$\lambda f(\boldsymbol{x})+(1-t) f(\boldsymbol{y}) \geqslant f(\boldsymbol{z})+0=f(\lambda \boldsymbol{x}+(1-\lambda )\boldsymbol{y})$

推论1

定义在凸集上的可微函数 $f$ ， $f$ 是严格凸函数，当且仅当
$f(\boldsymbol{y}) > f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x}), \quad \forall \boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f$

推论2

定义在凸集上的可微函数 $f$ ， $f$ 是强凸函数，当且仅当
$f(\boldsymbol{y}) \ge f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x})+\frac{m}{2}\Vert \boldsymbol{y}-\boldsymbol{x}\Vert^2, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f$

推论3

设 $f:\mathbb{R}^{n}\to \mathbb{R}$ 是一个连续可微的凸函数，则 $\nabla f(\mathbf{x}^{*})=0$ 当且仅当 $\mathbf{x}^{*}$ 是一个全局极小值点
证明：
必要性:
$\nabla f(\mathbf{x}^{*})=0$

根据一阶条件
$\forall \mathbf{x}\in \operatorname{dom} f,f(\boldsymbol{x}) \geqslant f(\mathbf{x}^{*})+\nabla f(\mathbf{x}^{*})^{\mathrm{T}}(\boldsymbol{x}-\mathbf{x}^{*})=f(\mathbf{x}^{*})$
充分性：
显然

梯度单调性

设 $f$ 是一个定义在 $C\subseteq \mathbb{R}^n$ 的连续可微的函数，则 $f$ 为凸函数当且仅当
$(\nabla f(\boldsymbol{x})-\nabla f(\boldsymbol{y}))^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) \geqslant 0, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in C$
证明：
必要性： $f$ 是凸函数
根据一阶条件
$\begin{aligned} &f(\boldsymbol{y}) \geqslant f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x}) \\ &f(\boldsymbol{x}) \geqslant f(\boldsymbol{y})+\nabla f(\boldsymbol{y})^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) \end{aligned}$
相加得
$(\nabla f(\boldsymbol{x})-\nabla f(\boldsymbol{y}))^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) \geqslant 0, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in C$

充分性：
设 $g(t)=f(\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x})), \quad g^{\prime}(t)=\nabla f(\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x}))^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x})$

因为 $(\nabla f(\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x}))-\nabla f(\boldsymbol{x}))^{\mathrm{T}}t(\boldsymbol{y}-\boldsymbol{x}) \geqslant 0$
所以 $\forall t>0,g'(t)\ge g'(0)$
$\begin{aligned} f(\boldsymbol{y}) &=g(1)=g(0)+\int_{0}^{1} g^{\prime}(t) \mathrm{d} t \\ & \geqslant g(0)+g^{\prime}(0)\\ &=f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x}) \end{aligned}$
所以 $f$ 是凸函数

推论1

$f$ 是严格凸函数当且仅当
$(\nabla f(\boldsymbol{x})-\nabla f(\boldsymbol{y}))^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) > 0, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f$

推论2

$(\nabla f(\boldsymbol{x})-\nabla f(\boldsymbol{y}))^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) \geqslant m\Vert \boldsymbol{y}-\boldsymbol{x}\Vert^2, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f$

二阶条件

设 $f$ 是一个定义在开的凸集 $C\subseteq \mathbb{R}^n$ 的二阶连续可微的函数，则 $f$ 是凸函数当且仅当
$\nabla^2 f(\mathbf{x})\succeq 0$
证明：
充分性： $\nabla^2 f(\boldsymbol{x})\succeq0$
由
$f(\boldsymbol{y})=f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^T(\boldsymbol{y}-\boldsymbol{x})+\frac{1}{2}(\boldsymbol{y}-\boldsymbol{x})^T\nabla^2f(\boldsymbol{y}-\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x}))(\boldsymbol{y}-\boldsymbol{x})$
其中 $t\in(0,1)$
于是
$f(\boldsymbol{y})\ge f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^T(\boldsymbol{y}-\boldsymbol{x})$

必要性：f是凸函数
假设存在非零向量 $\boldsymbol{v}\in\mathbb{R}^{n}$ ,使得 $\boldsymbol{v}^T\nabla^2f(\boldsymbol{x})\boldsymbol{v}<0$
因为 $C$ 是开集，所以存在足够小的 $t > 0$ ，使得 $\boldsymbol{x}+t\boldsymbol{v}\in C$
$\begin{aligned} f(\boldsymbol{x}+t\boldsymbol{v})&=f(\boldsymbol{x})+t\nabla f(\boldsymbol{x})^T\boldsymbol{v}+\frac{t^2}{2}\boldsymbol{v}^T\nabla^2f(\boldsymbol{x})\boldsymbol{v}+o(t^2\| \boldsymbol{v} \|)\\ \frac{f(\boldsymbol{x}+t\boldsymbol{v})-f(\boldsymbol{x})+t\nabla f(\boldsymbol{x})^T\boldsymbol{v}}{t^2}&=\frac{1}{2}\boldsymbol{v}^T\nabla^2f(\boldsymbol{x})\boldsymbol{v}+\frac{o(t^2\| \boldsymbol{v} \|)}{t^2} \end{aligned}$
$\frac{f(\boldsymbol{x}+t\boldsymbol{v})-f(\boldsymbol{x})+t\nabla f(\boldsymbol{x})^T\boldsymbol{v}}{t^2}\ge0$
所以当 $t\to 0^{+}$ , $\nabla^2 f(\boldsymbol{x})\succeq0$

推论1

设 $f$ 是一个定义在开的凸集 $C\subseteq \mathbb{R}^n$ 的二阶连续可微的函数，则 $f$ 是严格凸函数的充分条件是
$\nabla^2 f(\mathbf{x})\succ 0$
（不是必要条件，如 $x^4$ ）

推论2

设 $f$ 是一个定义在开的凸集 $C\subseteq \mathbb{R}^n$ 的二阶连续可微的函数，则 $f$ 是强凸函数的充要条件是
$\nabla^2f(\mathbf{x})\succeq mI$

保凸运算

数乘

设 $f$ 是定义在凸集 $C\subseteq \mathbb{R}^{n}$ 的凸函数
设 $\alpha\ge 0$ ，则 $\alpha f$ 是定义在凸集 $C\subseteq \mathbb{R}^{n}$ 的凸函数

加法

设 $f_1,\cdots,f_p$ 是定义在凸集 $C\subseteq \mathbb{R}^{n}$ 的凸函数，
则 $f_1+\cdots + f_p$ 是定义在凸集 $C\subseteq \mathbb{R}^{n}$ 的凸函数

线性变换

设 $f:C\to \mathbb{R}$ 是一个定义在凸集 $C\subseteq \mathbb{R}^n$ 的函数
设 $\mathbf{A}\in\mathbb{R}^{n\times m},\mathbf{b}\in\mathbb{R}^{n}$
则
$g(\mathbf{y})=f(\mathbf{Ay}+\mathbf{b})$
是一个定义在凸集 $D=\left\{\mathbf{y} \in \mathbb{R}^{m}: \mathbf{A} \mathbf{y}+\mathbf{b} \in C\right\}$ 的凸函数

证明：
首先 $D$ 是一个由 $C$ 映射的凸集
$D=\mathrm{A}^{-1}(C-\mathrm{b})$
设 $\mathbf{y}_1,\mathbf{y}_2\in D$ ,设
$\begin{aligned} &\mathbf{x}_{1}=\mathrm{A} \mathbf{y}_{1}+\mathrm{b} \in C\\ &\mathbf{x}_{2}=\mathrm{A} \mathbf{y}_{2}+\mathrm{b} \in C \end{aligned}$
设 $\lambda \in \left[0,1\right]$
$\begin{aligned} f\left(\lambda \mathbf{x}_{1}+(1-\lambda) \mathbf{x}_{2}\right) &\leq \lambda f\left(\mathbf{x}_{1}\right)+(1-\lambda) f\left(\mathbf{x}_{2}\right)\\ f\left(\mathbf{A}\left(\lambda \mathbf{y}_{1}+(1-\lambda) \mathbf{y}_{2}\right)+\mathbf{b}\right) &\leq \lambda f\left(\mathbf{A y}_{1}+\mathbf{b}\right)+(1-\lambda) f\left(\mathbf{A y}_{2}+\mathbf{b}\right)\\ g\left(\lambda \mathbf{y}_{1}+(1-\lambda) \mathbf{y}_{2}\right) &\leq \lambda g\left(\mathbf{y}_{1}\right)+(1-\lambda) g\left(\mathbf{y}_{2}\right) \end{aligned}$
所以 $g$ 是凸函数

特殊的复合

设 $f:C\to \mathbb{R}$ 是一个定义在凸集 $C\subseteq \mathbb{R}^n$
设 $g:I\to\mathbb{R}$ 是一个一维的定义在 $I\subseteq \mathbb{R}$ 的单调不减的凸函数
假设 $f(C)\subseteq I$
那么复合函数
$h(\mathbf{x}) \equiv g(f(\mathbf{x})), \quad \mathbf{x} \in C$
是一个定义在凸集 $C$ 上的凸函数

证明：
设 $\mathbf{x},\mathbf{y}\in C,\lambda\in \left[0,1\right]$
则
$\begin{aligned} h(\lambda \mathbf{x}+(1-\lambda) \mathbf{y}) &=g(f(\lambda \mathbf{x}+(1-\lambda) \mathbf{y})) \\ & \leq g(\lambda f(\mathbf{x})+(1-\lambda) f(\mathbf{y})) \\ & \leq \lambda g(f(\mathbf{x}))+(1-\lambda) g(f(\mathbf{y})) \\ &=\lambda h(\mathbf{x})+(1-\lambda) h(\mathbf{y}) \end{aligned}$

最大值

设 $f_1,\cdots,f_p:C\to \mathbb{R}$ 是 $p$ 个定义在凸集 $C\subseteq \mathbb{R}^n$ 是凸函数，则
$f(\mathbf{x}) \equiv \max _{i=1,2, \ldots, p} f_{i}(\mathbf{x})$
是定义在 $C$ 上的凸函数

证明：
设 $\mathbf{x},\mathbf{y}\in C,\lambda\in \left[0,1\right]$ ，则
$\begin{aligned} f(\lambda \mathbf{x}+(1-\lambda) \mathbf{y}) &=\max _{i=1,2, \ldots, p} f_{i}(\lambda \mathbf{x}+(1-\lambda) \mathbf{y}) \\ & \leq \max _{i=1,2, \ldots, p}\left\{\lambda f_{i}(\mathbf{x})+(1-\lambda) f_{i}(\mathbf{y})\right\} \\ & \leq \lambda \max _{i=1,2, \ldots, p} f_{i}(\mathbf{x})+(1-\lambda) \max _{i=1,2, \ldots, p} f_{i}(\mathbf{y}) \\ &=\lambda f(\mathbf{x})+(1-\lambda) f(\mathbf{y}) \end{aligned}$

最小值

设 $f:C\times D\to \mathbb{R}$ 是一个定义在 $C\times D$ 的凸函数
其中 $C\subseteq \mathbb{R}^m,D\subseteq \mathbb{R}^n$
设
$g(\mathbf{x})=\min _{\mathbf{y} \in D} f(\mathbf{x}, \mathbf{y}), \quad \mathbf{x} \in C$
并且假设 $g$ 有下界
则 $g$ 是定义在 $C$ 上的凸函数

证明：
设 $\mathbf{x}_1,\mathbf{x}_2\in C,\lambda \in \left[0,1\right]$
对于 $\epsilon>0$
那么存在 $\mathbf{y}_1,\mathbf{y}_2\in D$ ,使得
$\begin{aligned} &f\left(\mathbf{x}_{1}, \mathbf{y}_{1}\right) \leq g\left(\mathbf{x}_{1}\right)+\varepsilon \\ &f\left(\mathbf{x}_{2}, \mathbf{y}_{2}\right) \leq g\left(\mathbf{x}_{2}\right)+\varepsilon \end{aligned}$
因为 $f$ 是凸函数
$\begin{aligned} f\left(\lambda \mathbf{x}_{1}+(1-\lambda) \mathbf{x}_{2}, \lambda \mathbf{y}_{1}+(1-\lambda) \mathbf{y}_{2}\right) & \leq \lambda f\left(\mathbf{x}_{1}, \mathbf{y}_{1}\right)+(1-\lambda) f\left(\mathbf{x}_{2}, \mathbf{y}_{2}\right) \\ &\leq \lambda\left(g\left(\mathbf{x}_{1}\right)+\varepsilon\right)+(1-\lambda)\left(g\left(\mathbf{x}_{2}\right)+\varepsilon\right) \\ &=\lambda g\left(\mathbf{x}_{1}\right)+(1-\lambda) g\left(\mathbf{x}_{2}\right)+\varepsilon \end{aligned}$
于是
$g\left(\lambda \mathbf{x}_{1}+(1-\lambda) \mathbf{x}_{2}\right) \leq \lambda g\left(\mathbf{x}_{1}\right)+(1-\lambda) g\left(\mathbf{x}_{2}\right)+\varepsilon$
因为 $\epsilon$ 有任意性，所以 $g$ 是凸函数

下水平集

定义

设 $f:S\to \mathbb{R}$ 是定义在 $S\subseteq \mathbb{R}^n$ 的函数，
则 $f$ 的在下水平(level) $\alpha$ 下水平集(level sets)
$\operatorname{Lev}(f, \alpha)=\{\mathbf{x} \in S: f(\mathbf{x}) \leq \alpha\}$
显然凸函数的下水平集是凸的

拟凸函数

设 $f:C\to \mathbb{R}$ 是定义在凸集 $C\subseteq \mathbb{R}^n$ 的函数
如果对于任意 $\alpha\in\mathbb{R}$ 的水平集 $\operatorname{Lev}(f, \alpha)$ 是凸的，
那么称 $f$ 为拟凸函数

扩充实函数

之前的函数的象都是有限的
定义在 $\mathbb{R}^n$ ,且像为 $\mathbb{R}\cup \left\{\infty\right\}=\left(-\infty,\infty\right]$ 的函数称为扩充实函数(extended Real-Valued Functions)

扩充函数的有效域(effective domain)为
$\operatorname{dom}(f)=\left\{\mathbf{x} \in \mathbb{R}^{n}: f(\mathbf{x})<\infty\right\}$

一个扩充实函数 $f:\mathbb{R}^{n}\to \mathbb{R}\cup \left\{\infty\right\}$
如果存在 $\mathbf{x}_0\in\mathbb{R}^n$ ,使得 $f(\mathbf{x}_0)<\infty$
则 $f$ 称为正常函数

与之前凸函数的定义类似
扩充实函数是凸函数，如果 $\forall \mathbf{x},\mathbf{y}\in\mathbb{R}^n,\lambda\in\left[0,1\right]$ ,有
$f(\lambda \mathbf{x}+(1-\lambda) \mathbf{y}) \leq \lambda f(\mathbf{x})+(1-\lambda) f(\mathbf{y})$
其中定义
$\begin{aligned} a+\infty &=\infty \quad\forall a \in \mathbb{R}, \\ a \cdot \infty &=\infty \quad\forall a \in \mathbb{R}_{++} \\ 0 \cdot \infty &=0 \end{aligned}$

上方图

定义

设 $f:\mathbb{R}^{n}\to \mathbb{R}\cup \left\{\infty\right\}$
那么上方图集合(epigraph set) $\operatorname{epi}(f)\subseteq \mathbb{R}^{n+1}$ 定义为
$\operatorname{epi}(f)=\left\{\left(\begin{array}{cccc} \mathbf{x} \\ t \end{array}\right): f(\mathbf{x}) \leq t\right\}$

凸性

一个扩充实函数是凸函数当且仅当 $\operatorname{epi}(f)$ 是凸集

证明：
必要性： $f$ 是凸函数
设 $\left(\begin{array}{cccc} \mathbf{x}_1 \\ t_1 \end{array}\right),\left(\begin{array}{cccc} \mathbf{x}_2 \\ t_2 \end{array}\right)\in \operatorname{epi}(f),\lambda\in\left[0,1\right]$
$\begin{aligned} f(\lambda \mathbf{x}_1+(1-\lambda)\mathbf{x}_2) &\le \lambda f(\mathbf{x}_1)+(1-\lambda)f(\mathbf{x}_2)\\ &\le \lambda t+(1-\lambda)t\\ &=t \end{aligned}$

充分性： $\operatorname{epi}(f)$ 是凸集
设 $\left(\begin{array}{cccc} \mathbf{x}_1 \\ f(\mathbf{x}_1) \end{array}\right),\left(\begin{array}{cccc} \mathbf{x}_2 \\ f(\mathbf{x}_2) \end{array}\right)\in \operatorname{epi}(f),\lambda\in\left[0,1\right]$
于是
$f(\lambda \mathbf{x}_1+(1-\lambda)\mathbf{x}_2) \le \lambda f(\mathbf{x}_1)+(1-\lambda)f(\mathbf{x}_2)$

保凸

设 $f_i:\mathbb{R}^{n}\to \mathbb{R}\cup \left\{\infty\right\}$ 对于任意的 $i\in I$ （ $I$ 是一个下标的集合）是扩充实函数
那么 $f(\mathbf{x})=\max _{i \in I} f_{i}(\mathbf{x})$
是一个凸的扩充实函数

证明：
其实我们等价于证明 $\operatorname{epi}(f)=\bigcap_{i \in I} \operatorname{epi}\left(f_{i}\right)$

因为 $f_i$ 是凸函数，所以 $\operatorname{epi}(f_i)$ 是凸集
凸集的交集也是凸集，所以 $\operatorname{epi}(f)$ 是凸集
所以 $f$ 是凸函数

凸函数的连续性和微分性

凸函数局部Lipschitz连续

设 $f:C\to \mathbb{R}$ 是定义在 $C\subseteq \mathbb{R}^n$ 的函数
设 $\mathbf{x}_{0} \in \operatorname{int}(C)$ ，则存在 $\epsilon>0,L>0$
使得 $B\left[\mathbf{x}_0,\epsilon\right]\subseteq C$ ,
$\left|f(\mathbf{x})-f\left(\mathbf{x}_{0}\right)\right| \leq L\left\|\mathbf{x}-\mathbf{x}_{0}\right\|,\quad \mathbf{x}\in B\left[\mathbf{x}_0,\epsilon\right]$

证明：
因为 $\mathbf{x}_0\in \operatorname{int}(C)$
所以存在 $\epsilon>0$ 使得
$B_{\infty}\left[\mathbf{x}_{0}, \epsilon\right] \equiv\left\{\mathbf{x} \in \mathbb{R}^{n}:\left\|\mathbf{x}-\mathbf{x}_{0}\right\|_{\infty} \leq \varepsilon\right\} \subseteq C$
设 $\mathbf{v}_{1}, \mathbf{v}_{2}, \cdots, \mathbf{v}_{2^{n}}$ 是 $B_{\infty}\left[\mathbf{x}_{0}, \epsilon\right]$ 的 $2^n$ 个极点
设 $\mathbf{v}_{i}=\mathbf{x}_{0}+\varepsilon \mathbf{w}_{i}$
其中 $\mathbf{w}_{1}, \cdots, \mathbf{w}_{2^{n}}\in\left\{-1,1\right\}^{n}$
所以根据Krein-Milman定理，
$\forall \mathbf{x} \in B_{\infty}\left[\mathbf{x}_{0}, \epsilon\right],\exists\lambda\in\Delta_{2^n}$ ，使得 $\mathbf{x}=\sum_{i=1}^{2^{n}} \lambda_{i} \mathbf{v}_{i}$
根据Jensen不等式
$f(\mathbf{x})=f\left(\sum_{i=1}^{2^{n}} \lambda_{i} \mathbf{v}_{i}\right) \leq \sum_{i=1}^{2^{n}} \lambda_{i} f\left(\mathbf{v}_{i}\right) \leq M$
其中 $M=\max \limits_{i=1,2, \ldots, 2^{n}} f\left(\mathbf{v}_{i}\right)$
因为 $\|\mathbf{x}\|_{\infty}\le \|\mathbf{x}\|_2$ ,所以
$B_{2}\left[\mathbf{x}_{0}, \epsilon\right]=B\left[\mathbf{x}_{0}, \epsilon\right]=\left\{\mathbf{x} \in \mathbb{R}^{n}:\left\|\mathbf{x}-\mathbf{x}_{0}\right\|_{2} \leq \epsilon\right\} \subseteq B_{\infty}\left[\mathbf{x}_{0}, \epsilon\right]$
所以 $\forall \mathbf{x}\in B\left[\mathbf{x}_{0}, \epsilon\right],f(\mathbf{x})\le M$
如果 $\mathbf{x}=\mathbf{x}_0$ ，则显然成立
不妨设 $\mathbf{x}_0\neq \mathbf{x}\in B\left[\mathbf{x}_{0}, \epsilon\right]$
令
$\mathbf{z}=\mathbf{x}_{0}+\frac{1}{\alpha}\left(\mathbf{x}-\mathbf{x}_{0}\right)$
根据Jensen不等式
$\begin{aligned} f(\mathbf{x}) & \leq \alpha f(\mathbf{z})+(1-\alpha) f\left(\mathbf{x}_{0}\right) \\ & \leq f\left(\mathbf{x}_{0}\right)+\alpha\left(M-f\left(\mathbf{x}_{0}\right)\right) \\ &=f\left(\mathbf{x}_{0}\right)+\frac{M-f\left(\mathbf{x}_{0}\right)}{\epsilon}\left\|\mathbf{x}-\mathbf{x}_{0}\right\| \end{aligned}$
令 $L=\frac{M-f\left(\mathbf{x}_{0}\right)}{\epsilon}$
则 $f(\mathbf{x})-f\left(\mathbf{x}_{0}\right) \leq L\left\|\mathbf{x}-\mathbf{x}_{0}\right\|$
这就证明一半了

令 $\mathbf{u}=\mathbf{x}_{0}+\frac{1}{\alpha}\left(\mathbf{x}_{0}-\mathbf{x}\right)$
$\left\|\mathbf{u}-\mathbf{x}_{0}\right\|=\epsilon\Rightarrow \mathbf{u}\in B\left[\mathbf{x}_{0}, \epsilon\right]\Rightarrow f(\mathbf{u})\le M$
因为 $\mathbf{x}_{0}=\frac{1}{1+\alpha}\left(\mathbf{x}_{0}+\alpha\left(\mathbf{x}_{0}-\mathbf{u}\right)\right)+\frac{\alpha}{1+\alpha} \mathbf{u}$
根据Jensen不等式
$f\left(\mathbf{x}_{0}\right) \leq \frac{1}{1+\alpha} f\left(\mathbf{x}_{0}+\alpha\left(\mathbf{x}_{0}-\mathbf{u}\right)\right)+\frac{\alpha}{1+\alpha} f(\mathbf{u})$
于是
$f(\mathbf{x})=f\left(\mathbf{x}_{0}+\alpha\left(\mathbf{x}_{0}-\mathbf{u}\right)\right) \geq f\left(\mathbf{x}_{0}\right)+\alpha\left(f\left(\mathbf{x}_{0}\right)-f(\mathbf{u})\right)$
所以
$\begin{aligned} f(\mathbf{x}) & \geq f\left(\mathbf{x}_{0}\right)+\alpha\left(f\left(\mathbf{x}_{0}\right)-f(\mathbf{u})\right) \\ & \geq f\left(\mathbf{x}_{0}\right)-\alpha\left(M-f\left(\mathbf{x}_{0}\right)\right) \\ &=f\left(\mathbf{x}_{0}\right)-\frac{M-f\left(\mathbf{x}_{0}\right)}{\epsilon}\left\|\mathbf{x}-\mathbf{x}_{0}\right\| \\ &=f\left(\mathbf{x}_{0}\right)-L\left\|\mathbf{x}-\mathbf{x}_{0}\right\|, \end{aligned}$

方向导数

设 $f:C\to \mathbb{R}$ 是一个定义在凸集 $C\subseteq \mathbb{R}^n$ 的凸函数
设 $\mathbf{x}\in \operatorname{int}(C)$
对于任意的 $\mathbf{d}\neq 0$ ，方向导数 $f'(\mathbf{x};\mathbf{d})$ 存在

证明：
设 $\mathbf{x}\in \operatorname{int}(C),\mathbf{d}\neq 0$
我们的目标是证明
$\lim _{t \rightarrow 0^{+}} \frac{g(t)-g(0)}{t}$
的存在其中 $g(t)=f(\mathbf{x}+t \mathbf{d})$
令 $\equiv \frac{g(t)-g(0)}{t}$
所以等价于证明
$\lim\limits_{t\to 0^{+}}h(t)$
的存在

取 $\epsilon>0$ 使得， $\forall t\in\left[0,\epsilon\right],\mathbf{x}+t \mathbf{d}, \mathbf{x}-t \mathbf{d} \in C$
令 $0<t_1<t_2\le \epsilon$
$\mathbf{x}+t_{1} \mathbf{d}=\left(1-\frac{t_{1}}{t_{2}}\right) \mathbf{x}+\frac{t_{1}}{t_{2}}\left(\mathbf{x}+t_{2} \mathbf{d}\right)$
根据 $f$ 的凸性
$\begin{aligned} f\left(\mathbf{x}+t_{1} \mathbf{d}\right) &\leq\left(1-\frac{t_{1}}{t_{2}}\right) f(\mathbf{x})+\frac{t_{1}}{t_{2}} f\left(\mathbf{x}+t_{2} \mathbf{d}\right)\\ \frac{f\left(\mathbf{x}+t_{1} \mathbf{d}\right)-f(\mathbf{x})}{t_{1}} &\leq \frac{f\left(\mathbf{x}+t_{2} \mathbf{d}\right)-f(\mathbf{x})}{t_{2}}\\ h\left(t_{1}\right) &\leq h\left(t_{2}\right) \end{aligned}$
在趋向0的过程中 $h$ 单调递减
现在需要证明有下界，就可以根据单调递减有下界，必收敛
取 $0<t\le \epsilon$
$\mathbf{x}=\frac{\varepsilon}{\varepsilon+t}(\mathbf{x}+t \mathbf{d})+\frac{t}{\varepsilon+t}(\mathbf{x}-\varepsilon \mathbf{d})$
根据 $f$ 的凸性
$f(\mathbf{x}) \leq \frac{\varepsilon}{\varepsilon+t} f(\mathbf{x}+t \mathbf{d})+\frac{t}{\varepsilon+t} f(\mathbf{x}-\varepsilon \mathbf{d})$
所以
$h(t)=\frac{f(\mathbf{x}+t \mathbf{d})-f(\mathbf{x})}{t} \geq \frac{f(\mathbf{x})-f(\mathbf{x}-\varepsilon \mathbf{d})}{\varepsilon}$
所以收敛
于是方向导数存在

凸函数最大值

定理1

设 $f:C\to \mathbb{R}$ 定义在 $C$ 上的凸函数， $f$ 不是常值函数
那么 $f$ 在 $\operatorname{int}(C)$ 不会取到最大值

证明：
假设 $\mathbf{x}^{*} \in \operatorname{int}(C)$ 是 $f$ 在 $C$ 上的全局最大值
因为不是常值函数，所以 $\exists \mathbf{y}\in C,f(\mathbf{y})<f(\mathbf{x}^{*})$
因为 $\mathbf{x}^{*} \in \operatorname{int}(C)$ ,
所以 $\exists \epsilon>0,\mathbf{z}=\mathbf{x}^{*}+\varepsilon\left(\mathbf{x}^{*}-\mathbf{y}\right) \in C$
因为 $\mathbf{x}^{*}=\frac{\varepsilon}{\varepsilon+1} \mathbf{y}+\frac{1}{\varepsilon+1} \mathbf{z}$
所以
$f\left(\mathbf{x}^{*}\right) \leq \frac{\varepsilon}{\varepsilon+1} f(\mathbf{y})+\frac{1}{\varepsilon+1} f(\mathbf{z})$
进而
$f(\mathbf{z}) \geq \epsilon\left(f\left(\mathbf{x}^{*}\right)-f(\mathbf{y})\right)+f\left(\mathbf{x}^{*}\right)>f\left(\mathbf{x}^{*}\right)$
于是矛盾了，
所以全局最大值不会在内部取到

定理2

设 $f:C\to \mathbb{R}$ 是一个定义在凸的紧集 $C\subseteq \mathbb{R}^{n}$ 的凸函数，
则 $C$ 上至少存在一个极点，这个极点是 $f$ 在 $C$ 上的最大值

证明：
根据Weierstrass定理，紧集上的连续函数一定存在最大最小值
设 $\mathbf{x}^{*}$ 是 $f$ 在 $C$ 的最大值
如果 $\mathbf{x}^{*}$ 是 $C$ 上的极点，那结论成立
假设不是，根据Krein-Milman定理
存在 $\mathbf{x}_{1}, \mathbf{x}_{2}, \cdots, \mathbf{x}_{k} \in \operatorname{ext}(C),\lambda \in \Delta_{k}$ ,使得
$\mathbf{x}^{*}=\sum_{i=1}^{k} \lambda_{i} \mathbf{x}_{i}$
其中 $\forall i=1,2,\cdots,k,\lambda_i>0$
因此，根据 $f$ 的凸性
$\begin{aligned} f\left(\mathbf{x}^{*}\right) &\leq \sum_{i=1}^{k} \lambda_{i} f\left(\mathbf{x}_{i}\right)\\ \sum_{i=1}^{k} \lambda_{i}\left(f\left(\mathbf{x}_{i}\right)-f\left(\mathbf{x}^{*}\right)\right) &\geq 0 \end{aligned}$
所以 $\forall i=1,2,\cdots,k,f\left(\mathbf{x}_{i}\right)\ge f\left(\mathbf{x}^{*}\right)$

又因为 $\mathbf{x}^{*}$ 是最大值点
所以 $\forall i=1,2,\cdots,k,f(\mathbf{x}_i)\le f(\mathbf{x}^{*})$
于是 $f(\mathbf{x}_i)= f(\mathbf{x}^{*})$

所以最大值点是一个极点

Nightmare004

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
凸函数学习

前置知识凸集凸函数设函数f:C→Rf: C\to \mathbb{R}f:C→R是定义在凸集C⊆RnC\subseteq \mathbb{R}^nC⊆Rn的，如果f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)∀x1,x2∈C,λ∈[0,1]f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})\le \theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})\quad \forall \bolds
复制链接

扫一扫