【Boyd 凸优化】3. Convex Functions 凸函数

Manigoldo_

于 2024-03-20 10:50:13 发布

阅读量1k

点赞数 15

分类专栏： optimization 文章标签：机器学习凸优化

本文链接：https://blog.csdn.net/qq_21149391/article/details/136860553

版权

optimization 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

小写: $x$ 表示一维变量
粗体小写: $\mathbf{x}$ 表示n维向量
大写: $X$ 表示矩阵

1 凸函数的定义和例子

Def.1 如果函数 $f:\mathbb{R}^n\rightarrow\mathbb{R}$ 的前域 $\mathbf{dom} f$ 是凸集, 且对于任意 $x,y\in\mathbf{dom} f$ 和任意 $\theta\in[0,1]$ 下式成立, 那么 $f$ 是凸函数:
$f(\theta x+(1-\theta) y) \leq \theta f(x) +(1-\theta) f(y)$

几何解释: 任意两点间的线段都在这两点之间的 $f$ 曲线之上.
严格凸函数 (strictly convex function): 上述定义中的 $\theta\in(0,1)$ 和不等式符号改为小于号 $<$ .
如果函数 $f$ 是convex function, 那么 $- f$ 是 concave function.

Examples for scalar $x\in\mathbb{R}$ :

即是 convex 又是 concave:
仿射函数(affine function): $f (x) = a x + b$ 对于任意 $a,b\in\mathbb{R}$ .
convex functions:
- 二次函数(quadratic function): $f(x)= x^2$
- 指数函数(exponential function): $f(x)=\exp{ax}$ 对于任意 $a\in\mathbb{R}$
- 幂函数(powers function): $f(x)=x^{\alpha}$ , $\mathbf{dom} f=\mathbb{R}_{++}$ , 对于任意 $\alpha\geq 1$ 或 $\alpha\leq 0$
- 绝对值的幂函数(powers of absolute value): $f(x)=|x|^p$ 对于任意 $p\geq 1$
- ReLu: $f(x)=\max\{0,x\}$
- 熵的负数(negative entropy): $f(x)=x\log x$ , $\mathbf{dom} f=\mathbb{R}_{++}$
concave functions:
- 负二次函数(quadratic function): $f(x)= -x^2$
- 幂函数(powers function): $f(x)=x^{\alpha}$ , $\mathbf{dom} f=\mathbb{R}_{++}$ , 对于任意 $\alpha\in [0,1]$
- 对数函数(logarithm): $f(x)=\log x$ , $\mathbf{dom} f=\mathbb{R}_{++}$
- 熵(entropy): $f(x)=-x\log x$ , $\mathbf{dom} f=\mathbb{R}_{++}$
- 负数部分: $f(x)=\min\{0,x\}$

上述没有强调前域的函数, 其前域为 $\mathbf{dom} f=\mathbb{R}$ , 即整个实数集. 而 $\mathbb{R}_{++}$ 为正实数集合(不包括 0).

Examples for vector $\mathbf{x}\in\mathbb{R}^n$ :

即是 convex 又是 concave:
仿射函数(affine function): $f(\mathbf{x})=a^{T}\mathbf{x}+b$ 对于任意 $a,b\in\mathbb{R}^n$ .
convex functions:
- 范数函数( $\ell_p$ norms): $f(\mathbf{x})=||\mathbf{x}||_p=(|x_1|^p+...+|x_n|^p)^{1/p}$
- 平方和函数(sum of square/ square of $\ell_2$ norm): $f(\mathbf{x})=x_1^2+...+x_n^2$
- 极大值函数(max function): $f(\mathbf{x})=\max(\mathbf{x})=\max\{x_1,...,x_n\}$
- 平滑最大值函数(log-sum-exp function): $f(\mathbf{x})=\textbf{LSE}(\mathbf{x})=\log(\exp x_1+...+\exp x_n)$

Examples for matrix $X\in\mathbb{R}^{m\times n}$ :

即是 convex 又是 concave:
- 矩阵的迹(Trace): $f (X) = t r (X)$ , $\mathbf{dom} f=\{X:X\in\mathbb{R}^{n\times n}\}$ (方阵)
- afftine function: $f(X)=tr(A^TX)+b=\sum_{i=1}^{m}\sum_{j=1}^n A_{ij}X_{ij}+b$ 对于任意 $A\in\mathbb{R}^{m\times n}, b\in\mathbb{R}$ . 其中 $tr(A^T X)=<A,X>$ , 内积.
convex functions:
- 最大的特征值(max eigenvalue): $f(X)=\lambda_{max}(X)$ , $\mathbf{dom} f=\mathbf{S}^n$ . (n维对称阵)
- 谱范数/最大奇异值(spectral norm/ maximum singular value): $f(X)=||X||_2=\sigma_{max}(X)=(\lambda_{max}(X^TX))^{1/2}$
concave functions:
- 最小的特征值(min eigenvalue): $f(X)=\lambda_{min}(X)$ , $\mathbf{dom} f=\mathbf{S}$
- 对数行列式函数(log-determinant function): $f(X)=\log \det (X)$ , $\mathbf{dom} f=\mathbf{S}^n_{++}$ . (n维正定矩阵, positive definite matrix)

2. 如何判断凸函数

通过定义证明(或通过下面的方法1)
通过二阶条件(下面的方法3)
通过保留凸性的运算, 即 $f$ 由 $f_1,...,f_m$ 通过某些运算组成的, $f_i$ 相对更容易判断其凹凸性(下面的方法5)

接下来介绍这些方法.

3. 判断凸函数的方法1

$f:\mathbb{R}^n\rightarrow\mathbb{R}$ 是凸函数 $\Leftrightarrow$ 对于任意 $\mathbf{x}\in \textbf{dom } f$ 和 $\mathbf{y}\in\mathbb{R}^n$ , $g(t)=f(\mathbf{x}+t\mathbf{y})$ 是变量为 $t$ 的凸函数, $\textbf{dom } g=\{t|\mathbf{x}+t\mathbf{y}\in\textbf{dom} f\}$ .
这个方法称为 Restriction of a convex function to a line, 即 $f$ 在某一条直线上的形状是否为凸. 可以用这个方法证明 log-determinant function 是凸函数.

4. 判断凸函数的方法2: 一阶条件 First-order condition

Def.2 如果 $f:\mathbb{R}^n\rightarrow\mathbb{R}$ 可微 (differentiable), 那么 $f$ 在点 $\mathbf{x}\in\textbf{dom } f$ 处的梯度存在, 为:
$\triangledown f(\mathbf{x})=(\frac{\partial f(x)}{\partial x_1},...,\frac{\partial f(x)}{\partial x_n})\in\mathbb{R}^n$

凸函数的一阶条件 (first-order convexity condition):
假设 $f(\mathbf{x})$ 可微, 且其前域为凸集.

$f$ 是凸函数 $\Leftrightarrow$ 对于任意 $\mathbf{x},\mathbf{y}\in\textbf{dom } f$ 下式成立:
$f(\mathbf{y})\geq f(\mathbf{x})+\triangledown f(\mathbf{x})^T(\mathbf{y}-\mathbf{x})$
右边的项是泰勒级数的一部分(Taylor series).

5. 判断凸函数的方法3: 二阶条件 Second-order condition

Def.3 如果 $f:\mathbb{R}^n\rightarrow\mathbb{R}$ 一个二次可微 (twice differentiable), 那么 $f$ 在点 $\mathbf{x}\in\textbf{dom } f$ 处的 Hessian 矩阵存在, 为:
$H=\triangledown^2 f(\mathbf{x})=\frac{\partial^2 f(x)}{\partial \mathbf{\mathbf{x}}^T \partial \mathbf{x}}=\{\frac{\partial^2 f(\mathbf{x})}{\partial x_i \partial x_j}\}$
凸函数的二阶条件 (second-order convexity condition):
假设 $f(\mathbf{x})$ 二次可微, 且其前域为凸集.

$f$ 是凸函数 $\Leftrightarrow$ 对于任意 $\mathbf{x}\in\textbf{dom } f$ , 有:
$H=\triangledown^2 f(\mathbf{x})\succeq 0$
$f$ 是严格凸函数 $\Leftrightarrow$ 对于任意 $\mathbf{x}\in\textbf{dom } f$ , 有:
$H=\triangledown^2 f(\mathbf{x})\succ 0$

6. 判断凸函数的方法4: 利用上镜图(epigraph)

Def.4 函数 $f:\mathbb{R}^n\rightarrow\mathbb{R}$ 的 $\alpha$ -下水平集 ( $\alpha$ -sublevel set) 为:
$C_\alpha = \{\mathbf{x}\in \textbf{dom } f| f(\mathbf{x})\leq\alpha\}$

$f$ 为凸函数 $\Rightarrow$ $f$ 的下水平集为凸集. (无法反推)

Def.5 函数 $f:\mathbb{R}^n\rightarrow\mathbb{R}$ 的上镜图(epigraph)为:
$\textbf{epi} f=\{(\mathbf{x}, t)|\mathbf{x}\in \textbf{dom } f, f(\mathbf{x})\leq t\}$
即为 $f$ 图像上方的全部区域.

$f$ 为凸函数 $\Leftrightarrow$ $\textbf{epi} f$ 为凸集.

7. 判断凸函数的方法5: 保留凸性的运算(Operations that preserve convexity)

跟第二章中介绍的(集合的)运算类似. 由于一维变量的函数很好证明 (二阶导大于等于0即可), 这章主要考虑当输入变量是 $n$ 维向量的情况.

非负乘法:
$f(\mathbf{x})$ 是凸函数且 $\alpha\geq 0$ $\Rightarrow$ $\alpha f(\mathbf{x})$ 是凸函数
加法:
$f_1(\mathbf{x})$ 和 $f_2(\mathbf{x})$ 是凸函数 $\Rightarrow$ $f_1(\mathbf{x})+f_2(\mathbf{x})$ 是凸函数, 结论可扩展到无限个凸函数相加和积分形式 $\int$ .
非负加权之和(nonnegative weighted sums):
$f_i(\mathbf{x})$ 是凸函数且 $\alpha_i\geq 0$ $(i = 1, ..., n)$ $\Rightarrow$ $\sum_i^n \alpha_i f_i(\mathbf{x})$ 是凸函数, 同样结论可扩展到无限个凸函数相加和积分形式.
composition with affine function:
$f(\mathbf{x})$ 是凸函数 $\Rightarrow$ $f(A\mathbf{x}+b)$ 是凸函数
pointwise maximum:
$f_i(\mathbf{x})$ 是凸函数 $(i = 1, ..., n)$ $\Rightarrow$ $\max_{i\in[n]}\{f_i(\mathbf{x})\}$ 是凸函数
$f_i(\mathbf{x})$ 是凸函数 $(i = 1, ..., n)$ $\Rightarrow$ $\min_{i\in[n]}\{f_i(\mathbf{x})\}$ 是concave
例子:
$f(\mathbf{x})=\max_{i\in[m]}\{a_i^T \mathbf{x}+b_i\}$ 是凸函数, 等价于求 $A\mathbf{x}+b$ 最大的元素, $A\in\mathbb{R}^{m\times n}$ 是由 $a_i$ 组成, $b$ 为 n 维向量, 由 $b_i$ 组成.
最大的 $r$ 个元素之和: $f(\mathbf{x})=x_{[1]}+x_{[2]}+...+x_{[r]}$ 是凸函数
pointwise supremum :
$f(\mathbf{x}, \mathbf{y})$ 对于每个 $\mathbf{y}\in\mathcal{A}$ 是关于 $\mathbf{x}$ 的凸函数 $\Rightarrow$ $g(\mathbf{x})=\sup_{\mathbf{y}\in\mathcal{A}}f(\mathbf{x},\mathbf{y})$ 是凸函数.
例子:
集合 $C$ 的support function: $S_C(\mathbf{x})=\sup_{\mathbf{y}\in C} \mathbf{y}^T\mathbf{x}$ 是凸函数.
点 $\mathbf{x}$ 与集合 $C$ 之间最远的距离: $f(\mathbf{x})=\sup_{\mathbf{y}\in C} ||\mathbf{x}-\mathbf{y}||$ (任意norm 距离) 是凸函数.
函数复合(Composition with scalar functions)
假设 $f(\mathbf{x})=h(g(\mathbf{x}))$ , 其中 $g:\mathbb{R}^n\rightarrow\mathbb{R}$ , $h:\mathbb{R}\rightarrow\mathbb{R}$ :
$g$ 是凸函数, $h$ 是凸且非递减的函数 $\Rightarrow$ $f(\mathbf{x})$ 是凸函数
$g$ 是concave函数, $h$ 是凸且非递增的函数 $\Rightarrow$ $f(\mathbf{x})$ 是凸函数
例子:
$f(\mathbf{x})=\exp g(\mathbf{x})$ , 若 g 是凸函数, 那么 f 是凸函数. (因为 exp 是单调递增的凸函数)
$f(\mathbf{x})=1/g(\mathbf{x})$ , 若 g 是 concave 且大于0, 那么 f 是凸函数. (因为当定义域大于0时, 1/x 是单调递减的凸函数).
复合函数(对 g, h 没有维度约束)
假设 $f(\mathbf{x})=h(g(\mathbf{x}))$ , 其中 $g:\mathbb{R}^n\rightarrow\mathbb{R}^k$ , $h:\mathbb{R}^k\rightarrow\mathbb{R}$ , 也就是 $f(\mathbf{x})=h(g_1(\mathbf{x}),...,g_k(\mathbf{x}))$ :
对于全部 $i\in[k]$ , $g_i$ 是凸函数, $h$ 是凸函数且 $h$ 对于第 $i$ 维输入是非递减的函数 $\Rightarrow$ $f(\mathbf{x})$ 是凸函数
对于全部 $i\in[k]$ , $g_i$ 是concave, $h$ 是凸函数且 $h$ 对于第 $i$ 维输入是非递增的函数 $\Rightarrow$ $f(\mathbf{x})$ 是凸函数
对于全部 $i\in[k]$ , $g_i$ 是affine, $h$ 是凸函数 $\Rightarrow$ $f(\mathbf{x})$ 是凸函数