保凸运算以及一些复合函数的凹凸性判断

最新推荐文章于 2024-10-01 19:28:35 发布

小羊冲呀

最新推荐文章于 2024-10-01 19:28:35 发布

阅读量1w

点赞数 9

分类专栏：凸优化文章标签：算法

本文链接：https://blog.csdn.net/qq_41758867/article/details/106199047

版权

凸优化专栏收录该内容

3 篇文章

订阅专栏

非负加权求和

1.如果函数 $f$ 是凸函数且 $a \geq 0$ ,则函数 $a f$ 也为凸函数。如果函数 $f 1$ 和 $f 2$ 都是凸函数，则它们的和 $f 1 + f 2$ 也是凸函数。

将非负伸缩以及求和运算结合起来，函数 $f=w_{1} f_{1}+\dots+w_{m} f_{m}$ 是凸函数。

这个性质可以扩展至无限项的求和以及积分的情形。例如，如果固定任意 $y∈\mathcal{A}$ ,函数 $f (x, y)$ 关于 $x$ 是凸函数，且对任意 $y∈\mathcal{A}$ ,有 $w (y) \geq 0$ ,则
函数 $g$ ： $g(x)=\int_{\mathcal{A}} w(y) f(x, y) d y$ 关于 $x$ 是凸函数。

复合仿射映射

假设函数 $f:R"→R, A∈R_{n×m}$ 以及 $b∈R^n$ ,定义 $g:R^m→R$ 为 $g (x) = f (A x + b)$ ,
其中 $\operatorname{dom} g=\{x | A x+b \in \operatorname{dom} f\}$ .若函数 $f$ 是凸函数，则函数 $g$ 是凸函数。

逐点最大和逐点上确界

如果函数 $f 1$ 和 $f 2$ 均为凸函数，则二者的逐点最大函数 $f$ ： $f(x)=\max \left\{f_{1}(x), f_{2}(x)\right\}$ ，其定义域为 $\operatorname{dom} f=\operatorname{dom} f_{1} \cap \operatorname{dom} f_{2}$ ，仍然是凸函数。

例题1：以权为变量的最小二乘费用函数。
令 $a_{1}, \cdots, a_{n} \in \mathbf{R}^{m}$ ,在加权最小二乘问题中，
我们对所有的 $x∈R^m$ 极小化目标函数 $\sum_{i=1}^{n} w_{i}\left(a_{i}^{T} x-b_{i}\right)^{2}$ 。我们称 $w_i$ 为权，并允许负的
$w_i$ (则目标函数有可能无下界)。
我们定义(最优)加权最小二乘费用函数为
$g(w)=\inf _{x} \sum_{i=1}^{n} w_{i}\left(a_{i}^{T} x-b_{i}\right)^{2}$ ,
其定义域为
$\operatorname{dom} g=\left\{w | \inf _{x} \sum_{i=1}^{n} w_{i}\left(a_{i}^{T} x-b_{i}\right)^{2}>-\infty\right\}$ ，
因为函数 $g$ 是一族关于 $w$ 的线性函数的下确界(对应于不同的 $x∈R^n$ ),它是 $w$ 的凹函数。

例题2：对称矩阵的最大特征值。
定义函数 $f(X)=\lambda_{\max }(X)$ ,其定义域为 $dom f= S^m$ ,它是凸函数。为了说明这一点，我们将 $f$ 表述为
$f(X)=\sup \left\{y^{T} X y |\|y\|_{2}=1\right\}$ ,
即针对不同的 $y∈R^n$ 关于 $X$ 的一族线性函数(即 $y^T Xy$ )的逐点上确界。

例题3：矩阵范数。
考虑函数 $f(X)=\|X\|_{2}$ ,其定义域为 $domf= R^{p×q}$ ,其中 $\|\cdot\|_{2}$ 表示谱范数或者最大奇异值。函数 $f$ 可以表述为
$f(X)=\sup \left\{u^{T} X v |\|u\|_{2}=1,\|v\|_{2}=1\right\}$ ，
由于它是 $X$ 的一族线性函数的逐点上确界，所以是凸函数。

复合函数保凸或保凹

给定函数 $\mathbf{R}^{k} \rightarrow \mathbf{R}$ 以及 $\mathbf{R}^{n} \rightarrow \mathbf{R}^{k}$ ,定义复合函数 $\circ g: \mathbf{R}^{n} \rightarrow \mathbf{R}$ 为
$\quad \operatorname{dom} f=\{x \in \operatorname{dom} g | g(x) \in \operatorname{dom} h\}$ ，
我们考虑当函数 $f$ 保凸或者保凹时，函数 $h$ 和 $g$ 必须满足的条件。

1.标量复合

当 $\mathbf{k=1}$ 时，即 $\mathbf{R} \rightarrow \mathbf{R}, g: \mathbf{R}^{n} \rightarrow \mathbf{R}$ ，仅考虑当 $\mathbf{n=1}$ 的情况。
为了找出复合规律，假设函数 $h$ 和 $g$ 是二次可微的，并且 $\operatorname{dom} g=\operatorname{dom} h=R$ ，在此假设下，函数 $f$ 是凸的等价于 $f^{''} \geq 0$ .
复合函数 $\circ g$ 的二阶导为： $f^{\prime \prime}(x)=h^{\prime \prime}(g(x)) g^{\prime}(x)^{2}+h^{\prime}(g(x)) g^{\prime \prime}(x)$ ，

由此式子，可得到：

如果 $h$ 是凸函数且非减（ $h^{\prime \prime} \geqslant 0$ 且 $h^{\prime} \geqslant 0$ ）, $g$ 是凸函数（ $g^{\prime \prime} \geqslant 0$ ）,则 $f$ 是凸函数（ $f^{''} \geq 0$ ）;
如果 $h$ 是凸函数且非增, $g$ 是凹函数,则 $f$ 是凸函数;
如果 $h$ 是凹函数且非减, $g$ 是凹函数,则 $f$ 是凹函数;
如果 $h$ 是凹函数且非增, $g$ 是凸函数,则 $f$ 是凹函数。
上述在函数 $h$ 和 $g$ 是二次可微，并且 $\operatorname{dom} g=\operatorname{dom} h=\mathbf{R}$ 时成立。（1）

对于更一般的情况，如 $\mathbf{n>1}$ ,不再假设函数 $h$ 和 $g$ 可微或者 $\operatorname{dom} g=\mathbf{R}^{n}, \operatorname{dom} h=\mathbf{R}$ ,仍有：

如果 $h$ 是凸函数且 $\tilde{h}$ 非减, $g$ 是凸函数,则 $f$ 是凸函数;
如果 $h$ 是凸函数且 $\tilde{h}$ 非增, $g$ 是凹函数,则 $f$ 是凸函数;
如果 $h$ 是凹函数且 $\tilde{h}$ 非减, $g$ 是凹函数,则 $f$ 是凹函数;
如果 $h$ 是凹函数且 $\tilde{h}$ 非增, $g$ 是凸函数,则 $f$ 是凹函数。（2）
其中， $\tilde{h}$ 表示函数 $h$ 的扩展值延伸,若点不在 $d o m h$ 内,对其赋值 $\infty$ (若 $h$ 是凸函数)或者 $- \infty$ (若 $h$ 是凹函数。)
（2）和（1）的不同是我们要求扩展值延伸 $\tilde{h}$ 在整个 $R$ 上非增或者非减。
$\tilde{h}$ 非减意味着对于任意 $\in \mathbf{R}, x<y$ ，有 $\tilde{h}(x) \leqslant \tilde{h}(y)$ 。

举个小例子来理解以下：
函数 $h(x)=x^{1 / 2}$ ，定义域为 $\operatorname{dom} h=\mathbf{R}_{+}$ ，显然为凹函数，若 $\tilde{h}$ 不在 $d o m h$ 内，则为 $- \infty$ ，取 $x = - 1, y = 1$ ,则 $h (x) = - \infty, h (y) = 1, h (x) < h (y)$ ,所以 $\tilde{h}$ 非减（非减就是增加的意思呀）

几个简单的复合结论(直接带上述（1）的结论就可以）

●如果 $g$ 是凸函数则 $e^{g(x)}$ 是凸函数。
依据：如果 $h$ 是凸函数且非减, $g$ 是凸函数,则 $f$ 是凸函数。

●如果 $g$ 是凹函数且大于零，则 $l o g g (x)$ 是凹函数。
依据：如果 $h$ 是凹函数且非减, $g$ 是凹函数,则 $f$ 是凹函数.

●如果 $g$ 是凹函数且大于零，则 $1 / g (x)$ 是凸函数。
依据：如果 $h$ 是凸函数且非增, $g$ 是凹函数,则 $f$ 是凸函数.

●如果 $g$ 是凸函数且不小于零， $p \geq 1$ ,则 $g(x)^p$ 是凸函数。

●如果 $g$ 是凸函数，则 $- l o g (- g (x))$ 在 ${x | g(x)<0\}$ 上是凸函数。

矢量复合

考虑 $k \geq 1$ 的情况，此时更复杂一些。设 $f(x)=h(g(x))=h\left(g_{1}(x), \cdots, g_{k}(x)\right)$ ，
其中， $\mathbf{R}^{k} \rightarrow \mathbf{R}, \quad g_{i}: \mathbf{R}^{n} \rightarrow \mathbf{R}$ ，为了一般性，假设 $\mathbf{n=1}$ ，先对函数求二阶导为：
$f^{\prime \prime}(x)=g^{\prime}(x)^{T} \nabla^{2} h(g(x)) g^{\prime}(x)+\nabla h(g(x))^{T} g^{\prime \prime}(x)$ ，

可以得到：

如果 $h$ 是凸函数且在每维分量上 $h$ 非减， $g_i$ 是凸函数,则 $f$ 是凸函数;
如果 $h$ 是凸函数且在每维分量上 $h$ 非增， $g_i$ 是凹函数,则 $f$ 是凸函数;
如果 $h$ 是凹函数且在每维分量上 $h$ 非减， $g_i$ 是凹函数,则 $f$ 是凹函数。

和标量的情形类似，对于 $n > 1$ ,类似的复合结论仍然成立,不仅 $h$ 需要满足单调性条件，其扩展值延伸 $\tilde{h}$ 同样必须满足。

几个矢量复合的例子

●令 $h(z)=z_{[1]}+\cdots+z_{[r]}$ ，即对 $z∈R^k$ 的前 $r$ 大分量进行求和.则 $h$ 是凸函数且在每一维分量上非减。假设 $g_{1}, \cdots, g_{k}$ 是 $R^n$ 上的凸函数，则复合函数 $\circ g$ ,即最大 $r$ 个 $g_{i}$ 函数的逐点和，是凸函数。

●函数 $h(z)=\log \left(\sum_{i=1}^{k} \mathrm{e}^{z_{i}}\right)$ 是凸函数且在每一维分量上非减，因此只要 $g_{i}$ 是凸函数， $\log \left(\sum_{i=1}^{k} \mathrm{e}^{z_{i}}\right)$ 就是凸函数。

●对 $0 < p \leq 1$ ,定义在 $\mathbf{R}_{+}^{k}$ 上的函数 $h(z)=\left(\sum_{i=1}^{k} z_{i}^{p}\right)^{1 / p}$ 是凹的，且其扩展值延伸在每维分量上非减,则若 $g_{i}$ 是凹函数且非负, $h(z)=\left(\sum_{i=1}^{k} g_{i}(x)^{p}\right)^{1 / p}$ 是凹函数。

●设 $\geqslant 1, g_{1}, \cdots, g_{k}$ 是凸函数且非负。则函数 $\left(\sum_{i=1}^{k} g_{i}(x)^{p}\right)^{1 / p}$ 是凸函数。
证明：考虑函数 $\mathbf{R}^{k} \rightarrow \mathbf{R}$ ， $h(z)=\left(\sum_{i=1}^{k} \max \left\{z_{i}, 0\right\}^{p}\right)^{1 / p}$ ，
其中 $\operatorname{dom} h=\mathbf{R}^{k}$ ,因此 $h=\tilde{h}$ .由函数 $h$ 是凸函数且非减可知 $h (g (x))$ 关于 $x$ 是凸函数。对 $z \geq 0$ ,我们有 $h(z)=\left(\sum_{i=1}^{k} z_{i}^{p}\right)^{1 / p}$ ，所以 $\left(\sum_{i=1}^{k} g_{i}(x)^{p}\right)^{1 / p}$ 是凸函数。

●几何平均函数 $h(z)=\left(\prod_{i=1}^{k} z_{i}\right)^{1 / k}$ ，定义域为$ \mathbf{R}_{+}^{k}$ ,它是凹函数，且其扩展值延伸在每维分量上非减。因此若 $g_{1}, \cdots, g_{k}$ 是非负凹函数，它们的几何平均 $\left(\prod_{i=1}^{k} g_{i}\right)^{1 / k}$ 也是非负凹函数。