凸优化——凸集与凸函数

最新推荐文章于 2021-11-11 19:34:54 发布

楠兮兮

最新推荐文章于 2021-11-11 19:34:54 发布

阅读量1.1k

点赞数

分类专栏：数学

本文链接：https://blog.csdn.net/X1009190387/article/details/104640506

版权

数学专栏收录该内容

12 篇文章 1 订阅

订阅专栏

一、数学规划
从一个可行解的集合中，寻找出最优的元素，称为数学规划，又名优化。可以写为 $\begin{aligned} & minimize\ f_0(x) \\ &subject\ to\ f_i(x) <= b_i, i = 1, 2, ..., n \end{aligned}$ 其中 $x = [x_1, ... , x_n]^T$ ，称为优化变量； $f_0: \bm{R}^n \rightarrow \bm{R}$ 称为目标函数； $f_i: \bm{R}^n \rightarrow \bm{R}$ 称为不等式约束。优化问题的最优解为 $x^*$ ，等价于 $\forall z \in \{z|f_i(z) <= b_i\}, f_0(z)>=f_0(x^*)$ 在图像处理中，对图像 $I_0(x,y)$ 存在噪声，考虑恢复图像 $I (x, y)$ 。考虑先验知识图像的分片光滑，则认为TV范数，形如 $||I||_{TV} = \sum_y\sum_x[(I(x,y) - I(x,y - 1))^2 + (I(x,y) - I(x - 1,y))^2]^{1/2}$ 表示两方向差分的平方和开方求和，对于自然图像，TV范数一般较小。故可以化为优化问题： $\begin{aligned} & minimize\ ||I||_{TV} + λ||I - I_0||^2_F \end{aligned}$ 以确保恢复得到的图像光滑的同时，噪声图像与恢复图像相对接近。
数学规划可以以不同角度分类，包括线性规划问题与非线性规划问题，该类以约束的线性判定；凸优化与非凸优化，该类以约束的凸性判定，凸优化与非凸优化有本质上的差别，线性规划是典型的凸优化问题；光滑优化与非光滑优化，该类以目标函数的可微性判定；连续优化与离散优化，该类以可行域判定，离散优化一般情况下的非凸优化问题；单目标与多目标问题，该类以目标函数的数量判定。

二、仿射集
首先考虑空间不同的两点 $\bm{x_1}, \bm{x_2} \in \bm{R}^n$ ，为了表示过这两点的直线方程，定义变量 $\in \bm{R}$ ，则该直线为 $\bm{y} = θ\bm{x_1} + (1 - θ)\bm{x_2}$ 再考虑线段，考虑空间不同的两点 $\bm{x_1}, \bm{x_2} \in \bm{R}^n$ ， $\in \bm{R}$ ，线段可以表示为 $\bm{y} = θ\bm{x_1} + (1 - θ)\bm{x_2}，θ\in [0,1]$ 基于此，定义仿射集为，对于集合 $\bm{C}$ ， $\forall x_1, x_2 \in \bm{C}$ ，连接 $x_1$ 与 $x_2$ 的直线也在 $\bm{C}$ 内，则称该集合为仿射集。该定义推广到n元仍然有效。
首先考察仿射集的性质。取仿射集 $\bm{C}$ ，定义 $\bm{V} = \bm{C} - x_0 = \{x - x_0|x \in \bm{C}, \forall x_0 \in \bm{C} \}$ 称 $\bm{V}$ 为与 $\bm{C}$ 相关的子空间。 $\bm{V}$ 亦是一个仿射集，考虑 $\forall v_1, v_2 \in \bm{V}$ ， $\forall a, b \in \bm{R}$ ，考察 $av_1 + bv_2 + x_0$ 与 $\bm{C}$ 的关系，有 $av_1 + bv_2 + x_0 = a(v_1 + x_0) + b(v_2 + x_0) + (1 - a - b) x_0$ 而其中易知 $v_1 + x_0 \in \bm{C}$ ， $v_2 + x_0 \in \bm{C}$ ， $x_0 \in \bm{C}$ ，故 $av_1 + bv_2 + x_0 \in \bm{C}$ ，即 $av_1 + bv_2 \in \bm{V}$ 。故 $\bm{V}$ 的性质为 $\forall v_1, v_2 \in \bm{V}, \forall a, b \in \bm{R}, av_1 + bv_2 + x_0 \in \bm{C}$ 在几何空间中体现为 $\bm{C}$ 为任意超平面，而 $\bm{V}$ 与 $\bm{C}$ 平行且过原点。
考虑 $\bm{C} = \{\bm{X}|\bm{A}\bm{X} = \bm{b}\}$ ，并 $\forall\bm{X}_1, \bm{X}_2 \in \bm{C}$ ，则有 $\bm{A}\bm{X}_1 = \bm{b} \\ \bm{A}\bm{X}_2 = \bm{b}$ 再 $\forallθ \in R$ ，则有 $θ\bm{A}\bm{X}_1 = \bm{b} \\ (1 - θ)\bm{A}\bm{X}_2 = \bm{b}$ 故有 $θ\bm{A}\bm{X}_1 + (1 - θ)\bm{A}\bm{X}_2 = \bm{b}$ 即 $θ\bm{X}_1 + (1 - θ)\bm{X}_2 \in \bm{C}$ ，因此线性方程组的解集是一个仿射集。考虑该解集的子空间 $\bm{V} = \{\bm{X} - \bm{X}_0 | \bm{A}\bm{X} = \bm{b}\}, \bm{A}\bm{X}_0 = \bm{b}$ 即 $\bm{V} = \{\bm{X} - \bm{X}_0 | \bm{A}(\bm{X} - \bm{X}_0) = \bm{0}\}$ 考虑 $\bm{Y} = \bm{X} - \bm{X}_0$ 则 $\bm{V} = \{\bm{Y} | \bm{A}\bm{Y} = \bm{0}\}$ ，即在高维空间中仍满足 $\bm{V}$ 与 $\bm{C}$ 平行并且过原点。
考虑任意集合 $\bm{C}$ ，为了构造该集合的最小仿射集，定义仿射包 $aff\ \bm{C} = \{ θ_1\bm{X}_1 + ... + θ_k\bm{X}_k | \forall \bm{X}_1, ..., \bm{X}_k \in \bm{C}, θ_1 + ... + θ_k = 1 \}$

三、凸集
对于集合 $\bm{C}$ ， $\forall x_1, x_2 \in \bm{C}$ ，连接 $x_1$ 与 $x_2$ 的线段也在 $\bm{C}$ 内，则称该集合为凸集。该定义推广到n元仍然有效。仿射集是一种特殊的凸集。
考虑任意集合 $\bm{C}$ ，为了构造该集合的最小凸集，定义凸包 $Conv\ \bm{C} = \{ θ_1\bm{X}_1 + ... + θ_k\bm{X}_k | \forall \bm{X}_1, ..., \bm{X}_k \in \bm{C}, θ_1, ... , θ_k \in [0, 1], θ_1 + ... + θ_k = 1 \}$ 对于集合 $\bm{C}$ ， $\forall \bm{x} \in \bm{C}$ ，对 $θ > = 0$ ，有 $θ\bm{x} \in \bm{C}$ ，则称该集合为锥，锥一定经过原点。而对于集合 $\bm{C}$ ， $\forall \bm{x}_1, \bm{x}_2 \in \bm{C}$ ，对 $θ_1, θ_2 >= 0$ ，有 $θ_1\bm{x}_1 + θ_2\bm{x}_2 \in \bm{C}$ ，则称该集合为凸锥。考虑任意集合 $\bm{C}$ ，可以定义凸锥包 $\{ θ_1\bm{X}_1 + ... + θ_k\bm{X}_k | \forall \bm{X}_1, ..., \bm{X}_k \in \bm{C}, θ_1, ... , θ_k >= 0\}$ 凸集中有几种特殊的形式：一个点是仿射集、凸集，但仅有原点是凸锥；空集是仿射集、凸集、凸锥； $\bm{R}^n$ 空间是仿射集、凸集、凸锥； $\bm{R}^n$ 的子空间是仿射集、凸集、凸锥；任意直线是仿射集、凸集，过原点的直线式凸锥；任意线段是凸集，点是仿射集，原点是凸锥；任意射线是凸集，点是仿射集，过原点的射线是凸锥。
接下来考虑复杂情况。考虑超平面 $\{\bm{x}|\bm{a}^T\bm{x} = b, \bm{a}, \bm{x} \in \bm{R}^n, \bm{a} \ne \bm{0}, b \in \bm{R}\}$ ，在低维中表现为直线、平面。超平面是仿射集，凸集，超平面过原点，即子空间是一个凸锥。而半空间 $\{\bm{x}|\bm{a}^T\bm{x} > b, \bm{a}, \bm{x} \in \bm{R}^n, \bm{a} \ne \bm{0}, b \in \bm{R}\}$ 或 $\{\bm{x}|\bm{a}^T\bm{x} <= b, \bm{a}, \bm{x} \in \bm{R}^n, \bm{a} \ne \bm{0}, b \in \bm{R}\}$ 是一个凸集，不是一个仿射集，过原点时是一个凸锥；球 $\{\bm{x}|\ ||\bm{x} - \bm{x}_c||_2 <= r, \bm{x}_c \in \bm{R}^n\}$ ，低维中表现为圆、球体，是凸集，点是仿射集，原点是凸锥。考虑证明球是凸集，取球 $B(\bm{x}, \bm{x}_c) = \{\bm{x}|\ ||\bm{x} - \bm{x}_c||_2 <= r, \bm{x}_c \in \bm{R}^n\}$ ， $\forall \bm{x}_1, \bm{x}_2 \in B$ ，有 $||\bm{x}_1 - \bm{x}_c||_2 <= r, ||\bm{x}_2 - \bm{x}_c||_2 <= r$ ，考虑 $\in [0, 1]$ ，有 $\begin{aligned} &||θ\bm{x}_1 + (1 - θ)\bm{x}_2 - \bm{x}_c||_2 \\ =\ & ||θ(\bm{x}_1 - \bm{x}_c) + (1 - θ)(\bm{x}_2 - \bm{x}_c)||_2 \\ \le\ & ||θ(\bm{x}_1 - \bm{x}_c)||_2 + ||(1 - θ)(\bm{x}_2 - \bm{x}_c)||_2 \\ =\ & θ||(\bm{x}_1 - \bm{x}_c)||_2 + (1 - θ)||(\bm{x}_2 - \bm{x}_c)||_2 \\ \le\ & r \end{aligned}$ 即球中元素的凸组合仍在球内，球是凸集；椭球 $\{\bm{x}|\ (\bm{x} - \bm{x}_c)^T\bm{P}^{-1}(\bm{x} - \bm{x}_c) <= 1, \bm{x}_c \in \bm{R}^n, \bm{P} \in \bm{S}^n_{++}\}$ ，其中 $\bm{S}^n_{++}$ 表示n维正定对称矩阵， $\bm{P}$ 决定了椭球的半轴长。考虑椭球 $\{\bm{x}|\ (\bm{x} - \bm{x}_c)^T\left( \begin{matrix}4 & 0 \\ 0 & 1 \end{matrix} \right )^{-1}(\bm{x} - \bm{x}_c) <= 1\}$ ，展开得 ${(x_1, x_2)|1/4x_1^2 + x_2^2 <= 1\}$ 。椭球是凸集；多面体 $\{\bm{x}|\bm{a}^T\bm{x} <= b_j, j = 1, 2, ...m, \bm{a}^T\bm{x} = d_j, j = 1, 2, ...p\}$ ，可以无界，多面体是凸集；单纯形，在 $\bm{R}^n$ 空间中选择 $\bm{v}_0, ..., \bm{v}_k$ 共k+1个点， $\bm{v}_1 - \bm{v}_0, ..., \bm{v}_k - \bm{v}_0$ 线性无关，则与上述点相关的单纯形为 $Conv\{\bm{v}_0, ... \bm{v}_k\} = \{θ_0\bm{v}_0 + ... + θ_k\bm{v}_k, θ >= 0, \bm{1}^Tθ = 1\}$ 。考虑二维情况， $k = 1$ 时为线段， $k = 2$ 时为三角形， $k > = 3$ 时 $\{\bm{v}_k\}$ 不能线性无关。考虑三维情况，单纯形是线段、三角形、正四面体。单纯形一定是一个多面体，考虑证明该命题。记单纯形 $C$ ， $\bm{x} \in C, \bm{x} = θ_0\bm{v}_0 + ... + θ_k\bm{v}_k, θ >= 0, \bm{1}^Tθ = 1$ ， $\bm{v}_1 - \bm{v}_0, ..., \bm{v}_k - \bm{v}_0$ 线性无关。取 $(θ_1, ..., θ_k)^T = \bm{y}, (\bm{v}_1 - \bm{v}_0, ..., \bm{v}_k - \bm{v}_0) = \bm{B} \in \bm{R}^{n × k}$ ，则 $\bm{1}^T\bm{y} <= 1, \bm{y} >= 0$ ，则 $\begin{aligned} \bm{x} &= θ_0\bm{v}_0 + ... + θ_k\bm{v}_k \\ &= \bm{v}_0 + θ_1(\bm{v}_1 - \bm{v}_0) + ... + θ_k(\bm{v}_k - \bm{v}_0) \\ &= \bm{v}_0 + \bm{B}\bm{y} \end{aligned}$ 其中， $Rank(\bm{B}_{n×k}) = k， k<=n$ ，则有非奇异矩阵 $\bm{A} = \left( \begin{matrix}\bm{A_1} \\ \bm{A_2}\end{matrix} \right ) \in \bm{R}^{n×n}$ ，使得 $\bm{A}\bm{B} = \left( \begin{matrix}\bm{A_1} \\ \bm{A_2}\end{matrix} \right )\bm{B} = \left( \begin{matrix}\bm{I}_k \\ \bm{0}\end{matrix} \right )$ 。故有 $\bm{A}\bm{x} = \bm{A}\bm{v}_0 + \bm{A}\bm{B}\bm{y}$ ，即 $\left( \begin{matrix}\bm{A_1} \\ \bm{A_2}\end{matrix} \right )\bm{x} = \left( \begin{matrix}\bm{A_1} \\ \bm{A_2}\end{matrix} \right )\bm{v}_0 + \left( \begin{matrix}\bm{A_1} \\ \bm{A_2}\end{matrix} \right )\bm{B}\bm{y}$ 展开得 $\bm{A}_1\bm{x} = \bm{A}_1\bm{v}_0 +\bm{y} \\ \bm{A}_2\bm{x} = \bm{A}_2\bm{v}_0$ 考虑 $\bm{1}^T\bm{y} <= 1, \bm{y} >= 0$ ，有 $\bm{A}_1\bm{x} >= \bm{A}_1\bm{v}_0\\ \bm{1}^T\bm{A}_1\bm{x} <= \bm{1}^T\bm{A}_1\bm{v}_0 + 1 \\ \bm{A}_2\bm{x} = \bm{A}_2\bm{v}_0$ 得证。考虑对称矩阵集合 $\bm{S}^n$ ，对称半正定矩阵集合 $\bm{S}^n_+$ 与对称正定矩阵集合 $\bm{S}^n_++$ 。现在证明 $\bm{S}^n_+$ 是凸集、凸锥。 $\forall \theta_1, \theta_2 >= 0, \forall \bm{A}, \bm{B} \in \bm{S}^n_+$ ，则有 $\forall \bm{X} \in \bm{R}^n, \bm{X}^T\bm{A}\bm{X} >=0, \bm{X}^T\bm{B}\bm{X} >= 0$ ，则 $\bm{X}^T(\theta_1\bm{A} + \theta_2\bm{B})\bm{X} = \theta_1\bm{X}^T\bm{A}\bm{X} + \theta_2\bm{X}^T\bm{B}\bm{X} >= 0$ ，即对称半正定矩阵是凸锥。但对称正定矩阵不是凸锥，但是一个凸集。

四、保凸运算
若 $S_1, S_2$ 是凸集，则 $S_1 \cap S_2$ 是凸集，该结论可以推广到n个凸集的情况。
考虑函数 $f(\bm{x}) = \bm{A}\bm{x} + \bm{b}, \bm{A} \in \bm{R}^{m×n}, \bm{b} \in \bm{R}^m$ ，则 $\bm{R}^n \rightarrow \bm{R}^m$ 是仿射函数。若 $\in \bm{R}^n$ 是凸集， $\bm{R}^n \rightarrow \bm{R}^m$ 是仿射函数，则 $\{f(\bm{x})|\bm{x} \in S\}$ 是凸集，逆仿射函数 $f^{-1}$ 仍然是凸集。
若 $S_1, S_2$ 是凸集，则 $\{x+y|x \in S_1, y \in S_2\}$ 是凸集, $\{(x, y)|x \in S_1, y \in S_2\}$ 是凸集。
考虑线性矩阵不等式【LMI】 $A(\bm{X}) = \bm{X}_1\bm{A}_1 + ... + \bm{X}_n\bm{A}_n \preceq \bm{B}, \bm{B}, \bm{A}_i, \bm{X}_i \in \bm{S}^m$ ，其中 $A(\bm{X}) \preceq \bm{B}$ 表示 $(A(\bm{X}) - \bm{B})$ 是半负定矩阵，则 $\{\bm{X}|A(\bm{X})\preceq\bm{B}\}$ 是一个凸集。考虑仿射变换 $f(\bm{X}) = \bm{B} - A(\bm{X})$ ，而对称半正定矩阵是凸锥，则有 $f^{-1}(\bm{S}^n_+) = \{\bm{X} | \bm{B} - A(\bm{X}) \succeq 0\}$ 也是凸集，即LMI的解集也是凸集。
考虑函数 $p(\bm{z}, t) = \bm{z}/t, \bm{z}\in \bm{R}^n, t\in R_{++}$ ，则称该函数为透视函数。若 $(\bm{z}, t)$ 是凸集，则其透视函数 $p(\bm{z}, t)$ 是凸集。考虑高维的两点 $\bm{x}, \bm{y} \in \bm{R}^{n+1}$ ，则经过这两点的线段为 $θ\bm{x} + (1 - θ)\bm{y}$ ，其透视函数为 $\begin{aligned}p(θ\bm{x} + (1 - θ)\bm{y}) &= (θ\bm{x}' + (1 - θ)\bm{y}')/(θx_{n+1} + (1 - θ)y_{n+1}) \\&= θx_{n+1}/(θx_{n+1} + (1 - θ)y_{n+1}) (\bm{x}'/x_{n+1}) + (1 - θ)y_{n+1}/(θx_{n+1} + (1 - θ)y_{n+1}) (\bm{y}'/y_{n+1}) \\&= μp(\bm{x}', x_{n+1}) + (1 - μ)(\bm{y}', y_{n+1}) \end{aligned}$ 其中 $μ = θx_{n+1}/(θx_{n+1} + (1 - θ)y_{n+1})$ ，该结果是一个凸组合。再考虑反透视映射 $p^{-1}(\bm{c}) = \{(\bm{x}, t)\in \bm{R}^{n+1}|\bm{x}/t \in \bm{c}, t>0\}$ ，其亦是凸集。
考虑仿射函数 $g(\bm{x}) = (\bm{A}, \bm{c}^T)^T\bm{x} + (\bm{b}, d)^T, \bm{A}\in\bm{R}^{m×n}, \bm{C}\in\bm{R}^{n}, \bm{b}\in\bm{R}^{m}, d\in R$ ，与透视函数 $p:\bm{R}^{m+1}\rightarrow \bm{R}^{m}$ ，则定义线性分式函数 $f : p g$ ，即 $f(\bm{x}) = (\bm{A}\bm{x} + \bm{b})/(\bm{C}^T\bm{x} + d), dom\ f=\{\bm{x}|\bm{C}^T\bm{x} + d>0\}$ ，任意凸集的线性分式函数仍是凸集。考虑两个随机变量联合概率的条件概率，其中 $u = \{1, ..., n\}, v = \{1, ..., m\}$ ，则联合概率 $p_{ij} = P(u = i, v = j)$ ，以及条件概 $f_{i|j} = P(u = i|v = j)$ ，则 $f_{i|j} = p_{ij}/\sum{p_{k|j}}$ 该式是一个线性分式映射。

五、凸函数
定义函数 $f:\bm{R}^n\rightarrow R$ ，若 $d o m f$ 是凸集，且对于任意 $\bm{x}, \bm{y} \in dom f$ 与 $\le θ \le 1$ ，都有 $f(θ\bm{x} + (1-θ)\bm{y}) \le θf(\bm{x})+(1-θ)f(\bm{y})$ 则称函数 $f$ 是凸函数。若该式在 $\bm{x} \ne \bm{y}, 0 < θ < 1$ 时成立，则称 $f$ 严格凸。若 $f$ 是凸的，则 $- f$ 是凹的。
对于任意的凸函数 $f$ ，考虑在 $dom\ f$ 上过点 $\bm{x}$ 的直线 $\bm{x} + t\bm{v}$ ，则 $f(\bm{x} + t\bm{v})$ 是凸的。这有助于将凸函数限制在直线上判断凸性。
对于任意的凸函数 $f$ ，可以拓展为 $\begin{aligned} g(\bm{x}) &= f(\bm{x}), \bm{x} \in dom\ f \\ &= \infty, \bm{x} \notin dom\ f \end{aligned}$ 拓展后的 $g$ 仍是一个凸函数。
考虑凸函数的一阶条件。若函数 $f:\bm{R}^n\rightarrow R$ 可微，即梯度 $▽ f$ 在 $dom\ f$ 上均存在，则 $f$ 为凸函数等价于 $dom\ f$ 为凸且 $f(\bm{y}) \ge f(\bm{x}) + ▽f^T(\bm{x})(\bm{y} - \bm{x}), \forall \bm{x}, \bm{y} \in dom\ f$ 这是一条重要的性质，考虑存在 $▽f^T(\bm{x}) = \bm{0}$ 的情况，则上述式为 $f(\bm{y}) \ge f(\bm{x}), \forall \bm{x}, \bm{y} \in dom\ f$ ，这是凸优化的重要思想。
考虑凸函数的二阶条件。若函数 $f:\bm{R}^n\rightarrow R$ 二阶可微，则 $f$ 为凸函数等价于 $dom\ f$ 为凸且 $▽f^2(\bm{x}) \succeq 0, \forall \bm{x}\in dom\ f$ 其中 $▽f^2(\bm{x})$ 是海森【Hession】矩阵。
考虑二次函数 $f:\bm{R}^n\rightarrow R$ ，形如 $f(\bm{x}) = \bm{x}^T\bm{Px}/2 + \bm{q}^T\bm{x} + r, \bm{P} \in \bm{S}^n, \bm{q} \in \bm{R}^n, r \in R$ 考察其凸性，只需考察其海森矩阵 $▽f^2(\bm{x}) = \bm{P}$ 。
考虑仿射函数 $f(\bm{x}) = \bm{A}\bm{x} + \bm{b}$ ，其海森矩阵 $▽f^2(\bm{x}) = \bm{0}$ ，即凸又凹。
考虑指数函数 $f(\bm{x}) = e^{a\bm{x}}$ ，其海森矩阵 $▽f^2(\bm{x}) = a^2e^{a\bm{x}} \succeq 0$ ，为凸。
考虑幂函数 $f(\bm{x}) = \bm{x}^a, x \in R_{++}$ ，其海森矩阵 $▽f^2(\bm{x}) = a(a-1)\bm{x}^{a-2}$ ，当 $\le a \le 1$ ，为凸。
考虑负熵 $\in R_{++}$ ，其二阶导数为 $1 / x$ ，是严格凸的函数。
考虑范数 $p(\bm{x}),\bm{x} \in \bm{R}^n$ 满足 $p(a\bm{x}) = |a|p(\bm{x}) \\ p(\bm{x} + \bm{y}) \le p(\bm{x}) + p(\bm{y}) \\ p(\bm{x}) = 0, \bm{x} = \bm{0}$ 考察范数的凸性。 $\forall \bm{x}, \bm{y} \in \bm{R}^n, \forall\theta \in[0, 1]$ ，有 $\begin{aligned} p(\theta\bm{x} + (1 - \theta)\bm{y}) &\le p(\theta\bm{x}) + p((1 - \theta)\bm{y}) \\ &= \theta p(\bm{x}) + (1 - \theta)p(\bm{y}) \end{aligned}$ 即范数为凸。而考虑0范数 $||\bm{x}||_0 = num\{\bm{x}|x_{i} \ne 0\}$ 0范数不是范数，也非凸。
考虑极大值函数 $f(\bm{x}) = max\{x_1, ..., x_n\}, \bm{x} \in \bm{R}^n$ ， $\forall \bm{x}, \bm{y} \in \bm{R}^n, \forall\theta \in[0, 1]$ ，有 $\begin{aligned} f(\theta\bm{x} + (1 - \theta)\bm{y}) &= max\{\theta x_i + (1 - \theta)y_i, i = 1, ..., n\} \\ &\le \theta max\{x_i\} + (1 - \theta) max\{y_i\}, i = 1, ..., n\end{aligned}$ 即极大值函数为凸。极大值函数不可导，为了解决该问题，使用解析逼近解决该问题，形如 $f(\bm{x}) = log(e^{x_1} + ... + e^{x_n}), \bm{x} \in \bm{R}^n \\ max\{x_i\} \le f(\bm{x}) \le max\{x_i\} + logn$ 其海森矩阵为 $∂f/∂x_i = e^{x_i}/\sum{e^{x_i}} \\ \bm{H}_{ij} = ∂f^2/∂x_i∂x_j \\ ∂f^2/∂x_i∂x_j = -e^{x_i}e^{x_j}/(\sum{e^{x_i}})^2,i \ne j \\ ∂f^2/∂x_i∂x_j = (-e^{x_i}e^{x_i} + e^{x_i}\sum{e^{x_i}})/(\sum{e^{x_i}})^2, i = j$ 则有 $\bm{H} = 1/(\sum{e^{x_i}})^2[diag(e^{x_i}\sum{e^{x_i}}) - (e^{x_1}, ..., e^{x_n})^T(e^{x_1}, ..., e^{x_n})]$ 考察 $\bm{H}$ 的半正定性，即 $\forall \bm{V} \in \bm{R}^n, \bm{V}^T\bm{H}\bm{V} \ge 0$ ，取 $\bm{z} = (e^{x_1}, ..., e^{x_n})$ 不考虑正数系数，有 $\begin{aligned}\bm{V}^T\bm{H}\bm{V} &= k_{++}[(\bm{1}^T\bm{z})\bm{V}^Tdiag(\bm{z})\bm{V} - \bm{V}^T\bm{z}\bm{z}^T\bm{V}] \\&= k_{++}[\sum z_i\sum v_i^2z_i - (\sum v_iz_i)^2] \end{aligned}$ 取 $a_i = v_i(z_i)^{1/2}, b_i = z_i^{1/2}$ ，有 $\begin{aligned}\bm{V}^T\bm{H}\bm{V} &= k_{++}[\sum z_i\sum v_i^2z_i - (\sum v_iz_i)^2] \\&= k_{++}[\bm{b}^T\bm{b}\bm{a}^T\bm{a} - (\bm{a}^T\bm{b})^2] \end{aligned}$ 由柯西施瓦茨【Cauchy-Schwarz】不等式，该式非负，即极大值解析函数为凸。

六、保凸函数
若 $f_1, ...f_m$ 是凸函数，则其非负加权和，即 $\sum w_if_i, w_i \ge 0$ 为凸。推广到连续情况，若 $f (x, y)$ 对于任何 $\in A$ 均为凸，设 $\ge 0$ ，则 $\int_{y\in A}w(y)f(x, y)dy$ 为凸。
考虑 $f:\bm{R}^n \rightarrow R, \bm{A} \in \bm{R}^{n×m}, \bm{b} \in \bm{R}^n$ ，定义函数 $g(\bm{x}) = f(\bm{A}\bm{x} + \bm{b})$ ，若 $f$ 为凸，则 $g$ 为凸。考虑 $\forall \bm{x}, \bm{y} \in dom\ g, 0 \le \theta \le 1$ ，有 $\begin{aligned} g(\theta\bm{x} + (1 - \theta)\bm{y}) &= f(\theta\bm{A}\bm{x} + (1 - \theta)\bm{A}\bm{y} + \bm{b}) \\&= f(\theta(\bm{A}\bm{x} + \bm{b}) + (1 - \theta)(\bm{A}\bm{y} + \bm{b})) \\ &\le\theta f(\bm{A}\bm{x} + \bm{b}) + (1 - \theta)f(\bm{A}\bm{y} + \bm{b}) \\&= \theta g(\bm{x})+(1 - \theta)g(\bm{y}) \end{aligned}$ 该问题先仿射，再映射；再考虑映射后仿射，即 $f_i:\bm{R}^n \rightarrow R, \bm{A} \in \bm{R}^n, b \in R$ ，定义函数 $g(\bm{x}) = \bm{A}(f_1(\bm{x}), ..., f_n(\bm{x}))^T+b$ ，若 $\bm{A}$ 均为正，则该式是一个非负加权和。
考虑两个函数的极大值函数， $f_1$ 与 $f_2$ 为凸，则 $f(x) = max\{f_1(x), f_2(x)\}$ 为凸。考虑 $\forall \bm{x}, \bm{y} \in dom\ f, 0 \le \theta \le 1$ ，有 $\begin{aligned} f(\theta\bm{x} + (1 - \theta)\bm{y}) &= max\{f_1(\theta\bm{x} + (1 - \theta)\bm{y}), f_2(\theta\bm{x} + (1 - \theta)\bm{y})\} \\&\le max\{\theta f_1(\bm{x}) + (1 - \theta)f_1(\bm{y}), \theta f_2(\bm{x}) + (1 - \theta)f_2(\bm{y})\} \\&\le max\{\theta f_1(\bm{x}), \theta f_2(\bm{x})\} + max\{(1 - \theta)f_1(\bm{y}), (1 - \theta)f_2(\bm{y})\} \\&= \theta f(\bm{x}) + (1 - \theta)f(\bm{y}) \end{aligned}$ 考虑函数的组合，定义 $h:\bm{R}^k \rightarrow R, g:\bm{R}^n\rightarrow\bm{R}^k$ ，则其函数组合为 $f=hg:\bm{R}^n\rightarrow R$ ，其定义域 $dom\ f = \{x\in dom\ g|g(x) \in dom\ h\}$ 。考察定义在 $R$ 上一维二阶可微函数的凸性，即 $f (x) = h (g (x))$ 的二阶导数 $df(x)^2/d^2x = dh^2(g(x))/d^2g(x)·(dg(x)/dx)^2 + dh(g(x))/dg(x)·dg(x)^2/d^2x$ 则有 $h$ 为凸且单调不减，而 $g$ 为凸函数时， $f$ 为凸；或 $h$ 为凸且单调不增，而 $g$ 为凹函数时， $f$ 为凸。再考虑复杂情况，即高维、非实数全空间定义或二阶不可微时，分别使用海森矩阵、扩展函数与原始定义来解决。
定义函数 $f:\bm{R}^n \rightarrow R, g:\bm{R}^n × R_{++}\rightarrow R$ ，其中 $g(\bm{x},t) = tf(\bm{x}/t)$ 其中 $dom\ g = \{(\bm{x}, t)|t >0, \bm{x}/t \in dom\ f\}$ 。那么若 $f$ 为凸，则 $g$ 为凸。
考虑负对数 $f (x) = - l o g x$ ，其是一个凸函数，而其透视 $g (x, t) = t l o g (t / x)$ 也是凸的。再考虑 $\bm{u}, \bm{v} \in \bm{R}_{++}^n$ ，那么 $g(\bm{u}, \bm{v}) = \sum u_ilovg(u_i/v_i)$ 也是凸的，其是凸函数的和。再考虑 $D_{KL}(\bm{u}, \bm{v}) = \sum (u_ilog(u_i/v_i)-u_i + v_i)$ 称为KL散度，其是一个凸函数，并且是一种Bregman散度。考虑函数 $\rightarrow R$ 为凸，则其Bregman散度为 $D_B(u, v) = f(u) - f(v) - ▽f(v)(u-v)$ 当取 $f(\bm{u}) = \sum u_ilogu_i - \sum u_i$ 时，其退化为KL散度，因为Bregman不保凸。

七、拟凸函数
考虑函数 $f:\bm{R}^n \rightarrow R$ ，其α下水平集【α-sublevel set】定义为 $C_\alpha=\{\bm{x} \in dom\ f|f(\bm{x}) \le \alpha\}$ 凸函数的所有下水平集都是凸集，对于 $\forall \bm{x}, \bm{y} \in C_\alpha, f(\bm{x}) \le \alpha, f(\bm{y}) \le \alpha$ ，有 $\begin{aligned} f(\theta\bm{x} + (1 - \theta)\bm{y}) &\le \theta f(\bm{x}) + (1 - \theta)f(\bm{y}) \\&\le \alpha \end{aligned}$ 即对任意的 $\alpha$ 都满足。但该性质反之则不成立。
考虑下水平集的意义，对于凸函数 $f:\bm{R}^2 \rightarrow R$ ，将函数空间投影到几何平面时，当 $\alpha$ 增大，其下水平集投影是单调不减的凸集，推广到高维亦然。
而对于这样的函数，其不是凸函数，但其下水平集是凸集，称为拟凸函数。若一个函数是凸函数，则其一定是一个拟凸函数，但反之不成立，拟凸函数甚至可能是一个凹函数。拟凸函数也称单模态函数，一般来讲，凸优化算法亦适用于拟凸函数。拟凸函数可以用数字语言定义，形如 $max\{f(\bm{x}), f(\bm{y})\} \ge f(\theta\bm{x} + (1 - \theta)\bm{y})$ 则称 $f$ 为拟凸函数。
对于一个拟凸函数 $f$ ，若其一阶可微，则有若 $f(\bm{y}) \le f(\bm{x})$ ，则 $▽f^T(\bm{x})(\bm{y} - \bm{x}) \le 0$ 。
对于一个拟凸函数 $f$ ，若其二阶可微，则有若 $\bm{y}^T▽f \ge 0$ ，则 $\bm{y}^T▽^2f\bm{y} \ge 0$ 。

楠兮兮

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
凸优化——凸集与凸函数

一、凸集1.1 数学规划概念从一个可行解的集合中，寻找出最优的元素，称为数学规划，又名优化。可以写为minimize f0(x)subject to fi(x)<=bi,i=1,2,...,n \begin{aligned}& minimize\ f_0(x) \\ &subject\ to\ f_i(x) <= b_i, i =...
复制链接

扫一扫