【Boyd 凸优化】2. Convex sets 凸集 - 运算, 广义不等式, 分离超平面与支撑超平面

Manigoldo_

已于 2024-01-18 06:29:51 修改

阅读量958

点赞数 17

分类专栏： optimization 文章标签：凸优化机器学习笔记

于 2024-01-18 06:27:59 首次发布

本文链接：https://blog.csdn.net/qq_21149391/article/details/135621257

版权

optimization 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

本系列笔记(更新中): https://blog.csdn.net/qq_21149391/category_11891398.html
关于仿射集, 凸集, 凸锥, 超平面, 半空间, 欧氏球, 椭球, 范数球, 范数锥, 多面体, 单纯形, 半正定锥的介绍在这篇文章里: 【Boyd 凸优化】2. Convex sets 凸集 - 定义

~~有些专有名词的中文版真是一言难尽~~

1. Operations that preserve convexity 保留凸性的运算

这节介绍了 4 种集合的运算, 经过这些运算后的集合仍是 convex set.

1.1 Intersection 交集

一系列 convex sets 的交集仍是 convex set.

例1: 多面体 (polyhedron) 是有限个半空间 (halfspaces) 与超平面 (hyperplanes) 的交集, 半空间与超平面都是 convex, 所以多面体也是 convex.
例2: 半正定锥 (positive semidefinite cone) $\mathbf{S}_+^n$ 可以表示为:
$\mathbf{S}^n_{+} =\bigcap_{z\neq 0} \{X\in \mathbf{S}^n| z^TXz \geq 0\}$
其中, $\mathbf{S}^n$ 为全部大小为 $\times n$ 的对称矩阵的集合, $z$ 为任意不为 $0$ 的 $n$ 维向量. 而 $\{X\in \mathbf{S}^n| z^TXz \geq 0\}$ 是 $\mathbf{S}^n$ 中的半空间, 所以 $\mathbf{S}_+^n$ 是无限个半空间的交集, 因此是 convex.
例3: 考虑下述集合:
$\{x\in\mathbb{R}^m | |p(t)|\leq 1 \;\; \text{ for } \;\; |t|\leq \pi/3\}$
其中, $p(t) = x_1 \cos t + ... + x_m \cos mt$ . 若令 $c_t = ( \cos t, \cos 2t,... ,\cos mt)$ , 那么 $S$ 可表示为 $S=\bigcap_{|t|\leq \pi/3} S_t$ , 其中 $S_t$ 的形式为:
$S_t= \left\{ x| -1 \leq c_t^T x \leq 1 \right\}$
$S_t$ 为 slab, [不知道怎么翻译, 关于 slab 的介绍参考 wikipedia: https://en.wikipedia.org/wiki/Slab_(geometry)], 是 convex set. 因此 $S$ 也是 convex.
例4: 任意 closed convex set 都可表示为无限个半平面的交集.

1.2 Affine functions 仿射变换

1) 定义与性质

定义:
函数 $f:\mathbb{R}^n\rightarrow \mathbb{R}^m$ 如果有以下形式, 则称为 affine function 或 affine mapping:
$f (x) = A x + b$
其中 $A\in \mathbb{R}^{m\times n}, b\in \mathbb{R}^m$ . 所以 affine function 是一个线性映射和一个常数的相加.
性质1:
若 $\subseteq \mathbb{R}^n$ 是一个 convex set, $f:\mathbb{R}^n\rightarrow \mathbb{R}^m$ 是一个 affine function, 那么 $S$ 在 $f$ 之下的像 (image) 仍是 convex set. 其中 image 的形式为:
$\{f(x)|x\in S\}$
性质2:
若 $\subseteq \mathbb{R}^m$ 是一个 convex set, $f:\mathbb{R}^m\rightarrow \mathbb{R}^n$ 是一个 affine function, 那么 $S$ 在 $f$ 之下的原像 (inverse image) 仍是 convex set. 其中 inverse image 的形式为:
$f^{-1}(S) = \{x\in\mathbb{R}^n|f(x)\in C\}$

2) 例子

scaling 与 translation:
若 $S$ 是 convex, 那么 $S$ 经过 scaling 或 translation 后仍是 convex.
scaling 表示尺度变换或大小变换:
$\alpha S = \{\alpha x | x \in S\}$
translation 表示平移变换:
$\{x + a| x \in S\}$
其中 $\subseteq \mathbb{R}^n, \alpha \in \mathbb{R}, a\in \mathbb{R}^n$ .
projection 映射:
若 $S\subseteq \mathbb{R}^{m} \times \mathbb{R}^{n}$ 是 convex, 那么 $S$ 在其某些轴上的投影仍是 convex:
$\{x_1 \in\mathbb{R}^{m}| (x_1,x_2) \in S \;\;\text{ for some }\;\; x_2 \in\mathbb{R}^{n}\}$
sum 集合的加法:
若 $S_1, S_2$ 为两个 convex sets, 那么它们的 sum 仍是 convex:
$S_1+S_2 = \{x_1+x_2 | x_1 \in S_1, x_2\in S_2\}$
注意加法与集合的迪卡尔积 (Cartesian product) 的区别:
$S_1 \times S_2 = \{(x_1,x_2) | x_1 \in S_1, x_2\in S_2\}$
partial sum 部分和:
若 $S_1, S_2 \in \mathbb{R}^{m} \times \mathbb{R}^{n}$ 为两个 convex sets, 那么它们的 partial sum 仍是 convex:
$\{(x, y_1+y_2)| (x,y_1)\in S_1, (x,y_2)\in S_2 \}$
线性矩阵不等式的解集:
$\{x| A(x) \preceq B \}\\ A(x)=x_1 A_1+...+ x_mA_m$
其中 $A_i \in \mathbf{S}^m$ . 其中, 约束条件部分称为线性矩阵不等式 linear matrix inequality (LMI).
LMI 的解集是 $\mathbf{S}_+^n$ 在 $f (x) = B - A (x)$ 下的原像, 所以是 convex.
Hyperbolic cone 双曲锥:
$\{x| x^T Px \leq (c^T x)^2, c^T x\geq 0\}$
其中 $P\in\mathbf{S}_+^n, c\in\mathbb{R}^n$ . 形状类似类似于漏斗. 它是下述二阶锥 second-order cone 在 $f(x)=(P^{1/2}x, c^Tx)$ 下的原像, 所以是 convex.
$\{(z,t)|z^T z \leq t^2, t\geq 0\}$

1.3 Perspective function 透视函数

Prespective function $P:\mathbb{R}^{n+1}\rightarrow \mathbb{R}^n$ 有以下形式:
$\frac{z}{t},\;\;\;\;\;\; \mathbf{dom }P=\{(x,t)|t>0\}$
透视函数的输入由两个元素组成, 一个 $n$ 维向量 $x$ 和一个正实数 $t$ , 函数的操作是用第一个元素除以第二个元素, 所以输出会少一个维度, 因为输出是一个 $n$ 维向量.

如果 $C\subseteq \mathbf{dom }\;P$ 是 convex set, 那么 $C$ 在 $P$ 下的像和原像仍是 convex:
$P(C)=\{P(x)|x\in C\}\\ P^{-1}(C)=\{x|P(x)\in C\}$
直观例子: 考虑在三维空间中的针孔相机, 如下图, 上方四个黑点表示光源 (如点 $a$ ), $x_3 = 0$ 是一个平面, 中间有一个孔用于光的映射. 其中上方的光源经过针孔映射到下方的 $x_3=-1$ 平面上 (如点 $a^{'}$ ). 此时的映射就是一种透视函数, 即 $a^{'} = f (a, c) = a / c$ , 其中 $c$ 是一个标量, 与光源的位置和 $x_3$ 平面的位置相关.

在这里插入图片描述

1.4 Linear-fractional function 线性分段函数

Linear-fractional function (又称 projective function) $f:\mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ 有以下形式:
$f(x)=\frac{Ax+b}{c^Tx+d} ,\;\;\;\;\;\; \mathbf{dom }\;f=\{x|c^Tx+d>0\}$
其中, $A\in \mathbb{R}^{m\times n}, b\in\mathbb{R}^{m}, c\in \mathbb{R}^{n}, d\in\mathbb{R}$
若令 affine function $g=\begin{bmatrix}A\\ c^T\end{bmatrix} x +\begin{bmatrix}b\\ d\end{bmatrix}$ , 那么 $f$ 可表示为透视函数 $P:\mathbb{R}^{m+1}\rightarrow \mathbb{R}^{m}$ 与 $g:\mathbb{R}^{n}\rightarrow \mathbb{R}^{m+1}$ 的复合, 即:
$\circ g$

如果 $C\subseteq \mathbf{dom }\;f$ 是 convex set, 那么 $C$ 在 $f$ 下的像和原像仍是 convex:
$f(C)=\{f(x)|x\in C\}\\ f^{-1}(C)=\{x|f(x)\in C\}$
例子: 考虑下述 linear-fractional function:
$f(x)=\frac{x}{x_1+x_2+1} , \;\;\;\mathbf{dom }\; f = \{(x_1,x_2)|x_1+x_2+1>0\}$
输入空间和输出空间都是 $\mathbb{R}^2$ , $f$ 的定义域边界为 $x_1+x_2+1=0$ , 即下面左图中的虚线, $\mathbf{dom }\; f$ 为虚线的右上方. 考虑一个在 $\mathbf{dom }\; f$ 中的集合 $C$ 如左图所示, 它在 $f$ 下的像如右图, 右图中的虚线为 $f^{-1}$ 的定义域边界.

2. Generalized inequalities 广义不等式

Generalized inequalities 可以用 proper cones 来定义, 所以先介绍 proper cones.

2.1 Proper Cones 正常锥

定义:
如果锥 cone $K\subseteq \mathbb{R}^n$ 满足以下四个条件, 那么 $K$ 被称为 proper cone:

$K$ is convex
$K$ is closed:
closed 表示 $K$ 包含其边界, 类似于开区间与闭区间中的 “闭”
$K$ is solid:
solid 表示 $K$ 的 interior 非空, interior 指的是集合中的最大开集; nonsolid 则表示集合的点都在边界上, 无 interior. 可以看以下介绍:
https://blog.csdn.net/robert_chen1988/article/details/83502950
https://www.youtube.com/watch?v=5HIyAdS0Pe8
K is pointed
poined 表示 $K$ 中无直线, 若向量 $x\in K$ 且 $-x\in K$ , 那么 $x = 0$ . 可以看以下介绍, 有例图:
https://math.stackexchange.com/questions/2136079/what-is-a-pointed-cone-intuitively-how-could-one-visualize-it

例子:

非负象限 non-negative orthant $K=\mathbf{R}^n_+=\{x\in\mathbb{R}^n|x_i\geq 0, i=1,...,n \}$ . (如二维空间中的第一象限, 包含边界)
半正定锥 positive semidefinite cone $K=\mathbf{S}^n_+$ .
$[0, 1]$ 上的非负多项式 non-negative polynomials $K=\{x\in\mathbb{R}^n| x_1+x_2t+x_3t^2+...+x_n t^{n-1}\geq 0, t\in[0,1]\}$
多项式的图像有点难理解, 不过考虑二维空间中的会很直观, 此时 $K$ 的边界是 $x_1 +t x_2 =0$ , $t$ 决定了边界的斜率, $K$ 既是半空间又是凸锥, 且是 closed, solid. 因为定义域给了限制 $x_1, x_2 \in [0,1]$ , 所以也是 pointed.

2.2 Generalized inequalities

定义:

关于正常锥 $K$ 的 nonstrict generalized inequalities:
$\preceq_K y \;\;\; \Leftrightarrow \;\;\; y \succeq_K x \;\;\; \Leftrightarrow \;\;\; y-x \in K$
关于正常锥 $K$ 的 strict generalized inequalities:
$\prec_K y \;\;\; \Leftrightarrow \;\;\; y \succ_K x \;\;\; \Leftrightarrow \;\;\; y-x \in \mathbf{int}K$
符号 $\mathbf{int}K$ 表示 $K$ 的 interior, 也就是说 $y - x$ 在 $K$ 的内部而非边界上.
符号 $\prec_K, \preceq_K$ 称为 (strick) partial ordering 或 generalized inequality. 当在一维空间中, 如 $K=\mathbf{R}_+$ (非负实数), (strick) partial ordering 等价于 $<$ 和 $\leq$ .

例子:

当 $\mathbf{R}^n_+$ 非负象限时, $\preceq_{\mathbf{R}^n_+} y \Leftrightarrow x_i\leq y_i, i = 1,..., n$ , 此时称为 componentwise inequality.
当 $\mathbf{S}^n_+$ 半正定锥时, $\preceq_{\mathbf{S}^n_+} Y \Leftrightarrow Y - X$ 是半正定的, 此时称为 matrix inequality.

性质:
generalized inequality $\preceq_K$ 有以下性质, 这些性质与一维空间中的 $\leq$ 相似:

加法:
$\preceq_K y, \;\;\; u\preceq_K v \;\;\; \Rightarrow \;\;\;x+u \preceq_K y+v$
传递性:
$\preceq_K y, \;\;\; y\preceq_K z\;\;\; \Rightarrow \;\;\; x \preceq_K z$
scaling:
$\preceq_K y, \;\;\; \alpha \geq 0 \;\;\; \Rightarrow \;\;\; \alpha x \preceq_K \alpha y$
reflexive:
$\preceq_K x$
antisymmetric 非对称的:
$\preceq_K y, \;\;\; y\preceq_K x\;\;\; \Rightarrow \;\;\; x = y$
极限:
$x_i \preceq_K y_i \text{ for } i=1,2,..\\ \text{and } \lim_{i\rightarrow \infty} x_i = x, \lim_{i\rightarrow \infty} y_i = y \\ \Rightarrow x \preceq_K y$

3. Separating and supporting hyperplanes 分离超平面与支撑超平面

3.1 Separating hyperplane theorem 超平面分离定理

Thm. 若 $C$ 和 $D$ 为两个非空 (nonempty) 且不相交 (disjoint) 的 convex sets, 那么一定存在 $\neq 0$ 和 $b$ 使得全部 $C$ 中的点满足 $a^T x\leq b$ 且全部 $D$ 中的点满足 $a^T x\geq b$ . 即, 存在一个超平面分 ${x|a^Tx=b\}$ 将两个集合分离 ( the hyperplane separates $C$ and $D$ ). 这个超平面被称为 $C$ 和 $D$ 的 separating hyperplane.

Strict separation: 若上述 $a\neq$ 和 $b$ 使得全部 $C$ 中的点满足 $a^T x < b$ 且全部 $D$ 中的点满足 $a^T x > b$ , 那么称超平面 ${x|a^Tx=b\}$ 严格分离了这两个集合.

3.2 Supporting hyperplanes 支撑超平面

定义:
若 $\subseteq \mathbb{R}^n$ 且 $x_0$ 为 $C$ 边界上的一点 (用 $\textbf{bd }C$ 表示 $C$ 的边界集合, 即 $x_0\in \textbf{bd }C$ ), 若存在非零向量 $a\neq 0$ 对任意 $x\in C$ 满足 $a^T x \leq a^T x_0$ , 那么超平面 ${x|a^Tx=a^T x_0\}$ 被称作 $C$ 在点 $x_0$ 处的 supporting hyperplane.

在二维空间中, $C$ 在点 $x_0$ 处的 supporting hyperplane 就是 $C$ 的边界在点 $x_0$ 处的切线, 但注意下图中 $C$ 左侧凹陷部分虽然有切线, 但是没有 supporting hyperplane, 因为这时的切线会与集合相交, 上述定义中的不等式不成立.

Thm. (supporting hyperplane theorem)
如果集合 $C$ 是 convex set, 那么 $C$ 在任意边界点上都有 supporting hyperplane.