【Boyd 凸优化】2. Convex sets 凸集 - 定义

Manigoldo_

已于 2024-01-18 06:29:27 修改

阅读量573

点赞数 11

分类专栏： optimization 文章标签：凸优化机器学习

于 2024-01-15 10:20:11 首次发布

本文链接：https://blog.csdn.net/qq_21149391/article/details/135592363

版权

optimization 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

本系列笔记(更新中): https://blog.csdn.net/qq_21149391/category_11891398.html

0. Preliminaries

1) 直线与线段

$x_1, x_2 \in \mathbb{R}^n$ 为两个不重叠的点, 所有满足下式的点构成一条穿过 $x_1, x_2$ 的直线 (line):
$y=\theta x_1 +(1-\theta)x_2$
其中, $\theta \in \mathbb{R}$ 为任意实数.
当上式中的 $\theta\in[0, 1]$ 时, 所有满足上式的点构成一条在 $x_1, x_2$ 中间的线段 (line segment).

2) 正定与半正定矩阵

正定矩阵 positive definite matrix：
矩阵 $P$ 是正定的 iif 对任意非零向量 $x$ 有 $x^T P x > 0$ . 用符号表示为 $\succ 0$ .
半正定矩阵 positive semi-definite matrix：
矩阵 $P$ 是正定的 iif 对任意非零向量 $x$ 有 $x^T P x \geq 0$ . 用符号表示为 $\succeq 0$ .

iif 是 if and only if 的缩写. 意思为 “当且仅当”, 可用符号 “ $\Leftrightarrow$ ” 表示.

3) 奇异矩阵与非奇异矩阵

奇异矩阵 singular matrix 是不可逆的方阵.
非奇异矩阵 nonsingular matrix 是可逆的方阵.

4) 向量的范数 (norm)

对于任意 $y\in\mathbb{R}^n, t\in \mathbb{R}$ , 向量的范数 $||\cdot||$ 是满足下面三个条件的距离公式:

$||x||\geq 0$ ; $\Leftrightarrow x=0$
$∣∣ t x ∣∣ = ∣ t ∣∣∣ x ∣∣$
Triangle inequality: $\leq ||x||+||y||$

常用范数:

$\ell_1$ norm: $||x||_1=\sum_{i=1}^n |x_i|$ , 每个元素的绝对值之和
$\ell_2$ norm: $||x||_2=(\sum_{i=1}^n |x_i|^2)^{1/2}$ , 每个元素的2次方之和再开根号
$\ell_p$ norm: $||x||_p=(\sum_{i=1}^n |x_i|^p)^{1/p}$ , 每个元素的p次方之和再开p次根号. $p$ 为正整数
$\ell_\infty$ norm: $||x||_\infty=\max_{i=1,...,n}\{|x_i|\}$ , 绝对值最大的元素

1. Affine set 仿射集

1) Affine set (仿射集) 的定义:

$x_1, x_2$ 为集合 $C\subseteq \mathbb{R}^n$ 内的任意两点，若穿过 $x_1,x_2$ 的直线仍在 $C$ 内，那么 $C$ 为 affine set.

一些 affine set 的例子:

一条直线 line
一个平面 plane
一个三维空间
线性方程 ${x|Ax=b\}$ 的解集
证明：
令 $x_1,x_2$ 为上述解集内的两个点, 有 $Ax_1=b, Ax_2=b$ . 对于任意 $\theta$ , 可以算出:
$A[\theta x_1 +(1-\theta)x_2]=\theta A x_1 + (1-\theta) A x_2=\theta b+(1-\theta)=b$
所以点 $\theta x_1 +(1-\theta)x_2$ 仍在解集内.

下面第四节的开头有 affine set, convex set, convex cone 的一些例子.

2) Affine combination (仿射组合) 的定义

$x_1,...,x_k$ 的 affine combination 是 $\theta_1 x_1+...+\theta_k x_k$ ，其中 $\theta_1+...+\theta_k =1$ .

an affine set contains every affine combination of its points.

3) 扩展:

若 $C$ 为 affine set 且 $x_0\in C$ ，那么 $V=C-x_0=\{x-x_0|x\in C\}$ 称为与 $C$ 相关的子空间 subspace. (相当于平移)
对 $V$ 的分析：
$\begin{align} V&=\{x-x_0|x\in C\} \;\;\;\; \forall x_0\in C \\ &=\{x-x_0|Ax=b\}\\ &=\{x-x_0|Ax=Ax_0\}\\ &=\{x-x_0|A(x-x_0)=0\}\\ &=\{y|Ay=0\} \end{align}$
$V$ 为 $A$ 的 null space.

4) Affine hull (仿射包) 的定义:

$\in \mathbb{R}^n$ 为任意集合， $C$ 中的点所构成的全部 affine combinations 的集合称为 $C$ 的 affine hull，记为 $\textbf{aff } C$ ：
$\textbf{aff } C=\{\theta_1 x_1+...+\theta_k x_k | x_1,...,x_k\in C, \theta_1+...+\theta_k=1\}$
可以看出，集合 $C$ 的 affine hull 是包含 $C$ 的最小 affine set.
即, 若 $S$ 是任意 affine set 且 $C\subseteq S$ ，那么 $\textbf{aff } C \subseteq S$ .

2. Convex sets 凸集

Convex sets 的相关概念定义与 Affine sets 的定义相似, 可以结合起来记.

1) Convex sets 的定义

定义1： $x_1, x_2$ 为集合 $C\subseteq \mathbb{R}^n$ 内的任意两点，若线段 $x_1 x_2$ 仍在 $C$ 内，那么 $C$ 为 convex set.
定义2： $x_1, x_2$ 为集合 $C\subseteq \mathbb{R}^n$ 内的任意两点， $\theta\in [0,1]$ ，若 $\theta x_1+(1-\theta)x_2\in C$ ，那么 $C$ 为 convex set.

从定义我们就能推出, 所有的 affine set 都是 convex set.

图1. 左：六边形，包括边，是凸集；中：非凸集合；右：正方形，不包含边上的某些点，非凸（如果不含的点只在四个角上，为凸集）。

2) Convex combination (凸组合) 的定义

$x_1,...,x_k$ 的 convex combination 是 $\theta_1 x_1+...+\theta_k x_k$ ，其中 $\theta_1+...+\theta_k =1$ ，并且 $\theta_i \in [0,1]$ ， $i = 1, ..., k$ .

与前面的 affine combination 区别为 $\theta$ 的约束.

a set is convex iif it contains every convex combination of its points.

3) Convex hull (凸包) 的定义

$\in \mathbb{R}^n$ 为任意集合， $C$ 中的点所构成的全部 convex combinations 的集合称为 $C$ 的 convex hull，记为 $\textbf{conv } C$ ：
$\textbf{conv } C=\{\theta_1 x_1+...+\theta_k x_k|x_i\in C, \theta_i\in[0,1], i=1,...,k,\theta_1+...+\theta_k=1\}$
集合 $C$ 的 convex hull 是包含 $C$ 的最小 convex set.
即, 若 $B$ 是任意 convex set 且 $\subseteq B$ ，那么 $\textbf{conv } C \subseteq B$ .

图2. $\mathbb{R}^2$ 中的两个凸包，左图中的集合（15个点构成的集合）的凸包是一个五边形（阴影部分）；右图阴影部分为图1中间的图形的凸包。

3. Convex cone 凸锥

1) Convex cones (凸锥) 的定义

如果对于任意 $x\in C$ ， $\theta \geq 0$ ，有 $\theta x \in C$ , 那么集合 $C$ 被称为 cone 或 nonnegative homogeneous.
如果集合 $C$ 既是 cone 又是 convex set, 那么 $C$ 为 convex cone.
如果集合 $C$ 为 convex cone, 那么对于任意 $x_1,x_2\in C$ 和任意 $\theta_1,\theta_2 \geq 0$ ，有 $\theta_1 x_1+\theta_2x_2 \in C$ 。

图3. 凸锥在几何上可以描述为：顶点为0且边缘穿过 $x_1$ 和 $x_2$ 的二维饼图

2）Conic combination (锥组合) 的定义

$x_1,...,x_k$ 的 conic combination (或称为 nonnegative linear combination) 是 $\theta_1 x_1+...+\theta_k x_k$ ，其中 $\theta_1,...,\theta_k \geq 0$ .

若 $x_i$ 在 convex cone $C$ 中，那么 $x_i$ 的任意 conic combination 仍在 $C$ 内.
a set is a convex cone iif it contains all conic combinations of its elements.

3）Conic hull (锥包) 的定义

$\in \mathbb{R}^n$ 为任意集合， $C$ 中的点所构成的全部 conic combinations 的集合称为 $C$ 的 conic hull：
$\{\theta_1x_1+...+\theta_kx_k|x_i\in C, \theta_i\geq 0, i=1,...,k\}$

集合 $C$ 的 conic hull 是包含 $C$ 的最小 convex cone.

图4. 图2中的两个集合的锥包（阴影部分）；如果集合为两个点，且两点连线通过0点，它的锥包为一条通过这两点，顶点为0的射线

4. 一些重要的例子

仿射集都是凸集。
所有的空集 $\varnothing$ ，所有只包含一个点的集合 ${x_0\}$ ，和整个 $\mathbb{R}^n$ 空间都是 $\mathbb{R}^n$ 的仿射子集。
所有的直线都是仿射集，如果直线通过 0 点，那么它是一个凸锥。
所有的线段都是凸集，但不是仿射集。
一条射线，形式为 $\{x_0 + θv | θ \geq 0\}$ ，其中 $\neq 0$ ，是凸集，但不是仿射集。如果 $x_0=0$ ，则它是凸锥。
所有的子空间都是仿射集，并且是凸锥。

4.1 Hyperplanes 超平面

定义：超平面是一个形式为 ${x|a^Tx=b\}$ 的集合，其中 $a\in \mathbb{R}^n, a \neq 0, b\in \mathbb{R}$ 。

超平面是线性方程的非零解集
向量 $a$ 是超平面的 normal vector (法向量) , 常数 $b$ 决定了超平面与原点的偏移量.
超平面也可表示为 ${x|a^T(x-x_0)=0\}$ ，其中 $x_0$ 是超平面中的任意一点
也可表示为 $\{x|a^T(x-x_0)=0\}=x_0+a^\perp$ ，其中 $a^\perp$ 表示 $a$ 的正交补集.

图5. $\mathbb{R}^2$ 中的超平面，法向量为 $a$ ，点 $x_0$ 在超平面内。在超平面中的任意一点 $x$ ， $x-x_0$ （图中加粗的向量）与 $a$ 正交。

4.2 Halfspaces 半空间

上述的超平面能够将 $\mathbb{R}^n$ 划分成两个 halfspaces，halfspace 是一个形式为 $\{x|a^Tx \leq b\}$ 的集合，其中 $a\neq 0$ ，是一个线性不等式的非零解集.

A halfspace is a convex set，not a affine set:

图6. 超平面 $a^Tx=b$ 将 $\mathbb{R}^n$ 划分成两个半空间。由 $a^T x \geq b$ 确定的半空间(未加阴影)是沿 $a$ 方向延伸的。由 $a^T x \leq b$ 确定的半空间(阴影部分)在 $- a$ 方向上延伸的。向量 $a$ 是这个半空间的外法线。

Halfspace 也可表示为 $\{x|a^T(x-x_0)\leq0\}$ ，其中 $x_0$ 是对应的超平面上的任意点，即满足 $a^T x_0 = b$ 。
对此的几何解释为：Halfspace 由 $x_0$ 和任何与向量 $a$ ( $a$ 为向外的法向量)成钝角或直角的向量组成。如图7。

图7. 由 $a^T(x-x_0)\leq0$ 定义的半空间（阴影部分）：向量 $x_1 - x_0$ 与 $a$ 成锐角，因此 $x_1$ 不在半空间中。向量 $x_2 - x_0$ 与 $a$ 成钝角，在半空间中。

集合 ${x|a^Tx <b\}$ 称为开半空间(open halfspace)。

4.3 Euclidean Balls 欧式球

在 $\mathbb{R}^n$ 空间中的 Euclidean balls (或简称为 balls) 的形式为：
$B(x_c,r)=\{x|\; ||x-x_c||_2 \leq r\}=\{x|\; (x-x_c)^T(x-x_c)\leq r^2\}$
其中 $r > 0$ ， $||\cdot||_2$ 为 $\ell_2$ norm， $x_c$ 是球的中心，标量 $r$ 为半径.

若上述公式内的 “ $\leq$ ” 换为成 “ $=$ ”, 那么它表示球的表面 (sphere, 球面)
$B(x_c,r)$ 由距中心 $x_c$ 小于等于 $r$ 的所有点组成，即球面 + 球的内部.
球的另一种表示形式为：
$B(x_c,r)=\{x_c + ru|\; ||u||_2 \leq 1\}$
球是 convex set，证明：
球内任取两点 $x_1, x_2$ ，有 $||x_1-x_c||_2 \leq r$ 和 $||x_2-x_c||_2 \leq r$ ，
令 $\theta \in [0,1]$ ，则根据 convex set 的定义，需证明线段 $\theta x_1 + (1-\theta) x_2$ 是否在球内：
$\begin{align} & ||\theta x_1 + (1-\theta) x_2 - x_c||_2 \\ =&||\theta(x_1-x_c) + (1-\theta) (x_2-x_c)||_2 \\ \leq &\theta||x_1-x_c||_2 + (1-\theta) ||x_2-x_c||_2\\ \leq &r \end{align}$

4.4 Ellipsoids 椭球

椭球也属于 convex set，其形式为：
$\varepsilon = \{x|(x-x_c)^T P^{-1}(x-x_c)\leq 1\}$
其中 $P$ 为对称且正定的矩阵.

同样的， $x_c\in \mathbb{R}^n$ 为椭球的中心， $P$ 决定了椭球在每个方向上从 $x_c$ 延伸多远， $\varepsilon$ 的半轴长度由 $P$ 的特征值 $\sqrt{\lambda_i}$ 给出。
当 $P=r^2 I$ 时，上述公式的椭球就是球。

图8. 二维空间中的椭球（也是椭圆）， $x_c$ 为中心，两个线段为半轴。

4.5 Norm Balls 范数球

当将欧氏球公式中的二范数（ $||\cdot||_2$ ）换成 $\mathbb{R}^n$ 上的任意范数（ $||\cdot||$ ），此时的集合称为 Norm Balls：
$B(x_c,r)=\{x|\; ||x-x_c||\leq r\}$

当球的中心为圆点时, 不同范数球在二维空间中的形状如下图:
在这里插入图片描述

当范数为 $\ell_1$ norm 时, 此时的球的边界对应于图中红色正方形
当范数为 $\ell_2$ norm 时, 此时的球的边界对应于图中黄色圆形, 最普遍的球
当范数为 $\ell_\infty$ norm 时, 此时的球的边界对应于图中蓝色正方形
当范数为 $\ell_p$ norm 且 $p > 2$ 时, 此时的球的边界在黄线与蓝线之间

4.6 Norm Cones 范数锥

范数锥的公式为：
$C=\{(x,t)|\; ||x||\leq t\}$
其中， $x\in \mathbb{R}^n$ ， $\in\mathbb{R}$ .

注意, 集合 $\subseteq \mathbb{R}^{n+1}$ 中的元素是 $(x, t)$ , 是由一个 n 维向量和一个标量组成的对儿.
范数为 $\ell_2$ 的范数锥称为二阶锥 second-order cone, 如下图.

图9. $\mathbb{R}^2$ 中的 second-order cone 二阶锥的边界。

4.7 Polyhedra 多面体

定义：多面体为有限个线性等式和不等式的解集：
$\mathcal{P}=\{x|A x \preceq b, C x = d \}$

此处的符号 $\preceq$ 用于向量之间的关系, 与正定/半正定符号不同, 表示: $\preceq y \Leftrightarrow x_i \leq y_i$
若令
$A=\begin{bmatrix} a_1^T\\ ...\\ a_m^T\\ \end{bmatrix}, C=\begin{bmatrix} c_1^T\\ ...\\ c_p^T\\ \end{bmatrix}$
那么定义中的约束可变为:
$a_i^T x\leq b_i, c_j^T x=d_j\;\; \text{for } \;\; i = 1,...,m;\;\; j=1,...,p$
根据上式可看出，多面体是 $m$ 个半空间和 $p$ 个超平面的交集，其中 $m, n$ 为非无穷的正数。
仿射集（直线、子空间、超平面）、射线、线段、半空间都是多面体，多面体是凸集。

4.8 Simplexes 单纯形

1）定义

在 $\mathbb{R}^n$ 空间中选取 $k + 1$ 个仿射独立 (affinely independent) 的点，即 $v_1 - v_0,...,v_k-v_0$ 是线性无关的，则与上述点相关的单纯形为：
$C=\textbf{conv } \{v_0,...,v_k\}=\{\theta_0 x_0+...+\theta_k x_k| \theta\succeq 0,\mathbf{1}^T\theta = 1\}$
其中 $\textbf{conv }$ 表示凸包， $\mathbf{1}$ 表示所有元素均为 $1$ 的向量. 该单纯形的仿射维数为 $k$ ，称为 $k$ 维单纯形.

图10. $\mathbb{R}^2$ 空间中，左： $k = 1$ ，选取两个点得到的单纯形为一个线段；中： $k = 2$ ，选三个点，相关的单纯形为一个三角形（包括边和阴影部分）；右： $k = 3$ ，选取四个点，但是在二维空间中无法找到三个线性无关的向量（图中的任一向量可由另两个向量的线性组合得到），故在二维空间中，无法找到四个或以上的点来构成一个单纯形。

如图1，同样的可以得出：一维空间中的单纯形是线段；二维空间中的单纯形是三角形；三维空间中的单纯形为四面体。

2）证明：单纯形是多面体的一种

$C\in\mathbb{R}^n$ 为单纯形，则根据单纯形的定义可得：
$x\in C\Leftrightarrow x=\theta_0 v_0 + ...+ \theta_k v_k,\mathbf{1}^T\theta = 1,\theta\succeq 0,v_1 - v_0,...,v_k-v_0线性无关 \tag{1}$
为方便表示，我们定义 $y$ 和 $B$ ：
$y=[\theta_1,...,\theta_k]^T, \;\; y\succeq 0, \;\; \mathbf{1}^T y \leq 1$
$B=\begin{bmatrix} v_1-v_0 & ... & v_k-v_0 \end{bmatrix}\in \mathbb{R}^{n\times k}$
则公式（1）可以表示为：
$x\in C \Leftrightarrow x=v_0 + By\tag{2}$
$v_0, ..., v_k$ 为仿射独立的，即 $v_1-v_0,...,v_k-v_0$ 为线性无关的，可得 ${\rm rank}(B)=k$ ， $(k\leq n)$ ，因此存在一个非奇异矩阵 $A=\begin{bmatrix}A_1 \\A_2\end{bmatrix}\in\mathbb{R}^{n\times n}$ 使得
$AB=\begin{bmatrix}A_1 \\A_2\end{bmatrix} B=\begin{bmatrix}I\\0\end{bmatrix},\;(I\in \mathbb{R}^{k\times k})$
对公式（2）左乘一个矩阵 $A$ ：
$\begin{aligned} Ax &= Av_0 + ABy\\ \begin{bmatrix}A_1 \\A_2\end{bmatrix}x &=\begin{bmatrix}A_1 \\A_2\end{bmatrix}v_0+\begin{bmatrix}I\\0\end{bmatrix}y \end{aligned}$
即
$\left\{\begin{matrix} A_1 x=A_1 v_0 + y\\ A_2 x=A_2 v_0 \end{matrix}\right.$
因此 $x\in C$ 当且仅当 $A_2 x= A_2 v_0$ 且向量 $y=A_1x - A_1 v_0$ 满足 $y\succeq 0, \; \mathbf{1}^T y \leq 1$ 。换句话说， $x\in C$ 当且仅当:
$A_2 x = A_2 v_0, \;\;\; A_1 x \succeq A_1 v_0, \;\;\; \mathbf{1}^TA_1x \leq 1+ \mathbf{1}^T A_1 v_0$
即单纯形为两个不等式和一个等式描述的集合，这也就是多面体的定义。

4.9 The Positive Semidefinite Cone 半正定锥

1) 定义

$\textbf{S}^n$ 为全部对称矩阵的集合:
$\mathbf{S}^n = \{X\in \mathbb{R}^{n\times n}|X=X^T\}$
这是一个维度为 $n (n + 1) /2$ 的向量空间。
是凸锥，所以也是凸集。
$\mathbf{S}^n_+$ 为半正定锥, 是全部对称且半正定的矩阵的集合:
$\mathbf{S}^n_+ = \{X\in \textbf{S}^n|X\succeq 0\}$
是凸锥，所以也是凸集。
$\mathbf{S}^n_{++}$ 为全部对称且正定的矩阵的集合:
$\mathbf{S}^n_{++} = \{X\in \mathbf{S}^n|X\succ 0\}$
是凸集，不是凸锥。

2）证明： $\mathbf{S}^n_+$ 是凸锥

即（根据凸锥的定义）任取 $\theta_1, \theta_2 \geq 0$ ， $\in \mathbf{S}^n_+$ ，证明 $\theta_1 A+\theta_2 B\in \mathbf{S}^n_+$ 。
根据半正定矩阵的性质有：
$\forall x\in \mathbb{R}^n,\; x^T A x \geq 0,\; x^T B x \geq 0$
因此：
$\begin{aligned} &x^T(\theta_1 A+\theta_2 B)x\\ =&\;\theta_1x^T A x + \theta_2 x^T B x\\ \geq & \; 0 \end{aligned}$
即 $\theta_1 A+\theta_2 B\in \textbf{S}^n_+$ ，证明完毕。

3）不同空间中的特征

n=1：即一维空间中， $\textbf{S}^1 = \textbf{R}$ （实数集）； $\textbf{S}^1_+ = \textbf{R}_+$ （非负实数集）； $\textbf{S}^1_{++} = \textbf{R}_{++}$ （正实数集)。
n=2：即二维空间中，如图2，我们有：
$\begin{bmatrix}x & y\\ y & z\end{bmatrix}\in \textbf{S}^2_+ \Leftrightarrow x \geq 0, z \geq 0, xz \geq y^2$