最优化方法(学习笔记)-第二章凸集_log space convex combination-CSDN博客

本文链接：https://blog.csdn.net/u011412840/article/details/107215546

基本概念

仿射集Affine Set

定义：集合内任意两个不同的点，都可以形成一条直线，且直线上所有点都在该集合内，形如 $x=\theta x_1+(1-\theta)x_2，\theta \isin R$
在这里插入图片描述
$S=\{x|Ax=b\}$ 这种线性函数方程解类型就可以符合条件 $x=\theta x_1+(1-\theta)x_2,Ax_1=b,Ax_2=b$
有 $Ax=A(\theta x_1+(1-\theta)x_2)=\theta b+(1-\theta)b=b$

凸集Convex Set

定义：集合内任意两个不同的点，都可以形成一条线段，且线段上所有点都在该集合内，形如 $x=\theta x_1+(1-\theta)x_2，\theta \isin [0,1]$
在这里插入图片描述

凸组合Convex Combination

定义：假设有k个不同的点可组合成新点： $x=\sum\limits_{i=1}^{k}\theta_i x_i，\sum\limits_{i=1}^{k}\theta_i=1，\theta_i \geq 0$
在这里插入图片描述
假如要应用在凸集S里，采用数学归纳法：
k=2已经证明成立
k=n假设成立(作为新的点) $y=\sum\limits_{i=1}^{n}\eta_i y_i \isin S$ ，
接下来证明k=n+1:注意 $\sum\limits_{i=1}^{n+1}\theta_i=1=>(1-\theta_{n+1})=\sum\limits_{i=1}^{n}\theta_i$
$x=\sum\limits_{i=1}^{n+1}\theta_i x_i=\sum\limits_{i=1}^{n}\theta_i x_i+\theta_{n+1}x_{n+1}=(1-\theta_{n+1})(\sum\limits_{i=1}^{n}\frac{\theta_i x_i}{1-\theta_{n+1}})+\theta_{n+1}x_{n+1}$
$=(1-\theta_{n+1})(\sum\limits_{i=1}^{n}\frac{\theta_i x_i}{\sum\limits_{i=1}^{n}\theta_i})+\theta_{n+1}x_{n+1}=(1-\theta_{n+1})\sum\limits_{i=1}^{n}\eta_i y_i+\theta_{n+1}x_{n+1}$
$=(1-\theta_{n+1})y+\theta_{n+1}x_{n+1}【两个任意的点y，x_{n+1}】$
得证，所以凸组合 $x\isin S$

凸包Convex Pull

定义：用一个最小集合涵盖（凸集S生成的）凸组合的所有点，这最小点集就是凸包。
存在 $凸集 V$ ，若 $凸集S\subset V$ ，则 $S的凸包\subseteq V$

走边界，保证区域内任意一点，一直在同一侧
边界点的切线，该直线不会将整个区域分成两个子区域

在这里插入图片描述

凸锥Convex cone

cone锥的定义： $\forall x\isin C，有\theta x\isin C,且\theta\geq0$
conic combination锥组合的定义： $x=\theta_1 x_1+\theta_2 x_2，且\theta_1,\theta_2\geq0$
convex cone凸锥：包含锥组合所有点的最小点集（两个边界的夹角小于180°）
在这里插入图片描述

(超)平面Hyperplanes|球体balls|椭球Ellipsoids

定义：法向量决定一个平面，所以 $a^T(x-x_0)=0$ ，于是有公式 $\{x|a^Tx=b\}，a\neq 0$ ，a是一个向量，属于凸集+仿射集
在这里插入图片描述

半空间Halfspaces|

定义：公式 $\{x|a^Tx-b\leq0\}$ ，a是一个向量，属于凸集+非仿射集
在这里插入图片描述
证明： $S=\{x|a^Tx-b>0\},x_1,x_2\isin S$ ，凸集+非仿射集
$a^Tx_1-b>0,a^Tx_2-b>0$
$原式=a^T[\theta x_1+(1-\theta)x_2]-b=\theta(a^Tx_1-b)+(1-\theta)(a^Tx_2-b)$

$\theta\isin[0,1]，原式>0\implies convex$
$\theta\isin R，原式不确定符号\implies not-affine$

欧式球体Euclidean balls

定义： $中心x_c,半径r，B(x_c,r)=\{x|\space ||x-x_c||_2\leq r\}=\{x_c+ru|\space ||u||_2\leq 1\}$

椭球Ellipsoids

定义： $\sum\limits_{i=1}^n \frac{x_i^2}{r_i^2}\leq1$ ，也可以写成 $\{x|(x-x_c)^TP^{-1}(x-x_c)\leq1\}且P\isin S_{++}^n(对称正定矩阵)，\{x_c+Au|\space||u||_2\leq 1\}$

类似马氏距离，马氏距离(Mahalanobis Distance)是度量学习中一种常用的距离指标，同欧氏距离、曼哈顿距离、汉明距离等一样被用作评定数据	之间的相似度指标。但却可以应对高维线性分布的数据中各维度间非独立同分布的问题。

马氏距离详细链接

可以允许P的特征值分解 $P=u^T\sum u且u^T=u^{-1}，P是半径方向$
有 $(x-x_c)^TP^{-1}(x-x_c)=(x-x_c)^T(u^T\sum u)^{-1}(x-x_c)$
$=(u(x-x_c))^T\sum^{-1} u(x-x_c)=y^T\sum^{-1} y=\sum\limits_{i=1}^n \frac{y_i^2}{r_i^2}\leq1$

注意： $\frac{1}{r_i^2}=\frac{1}{\lambda_i},\lambda_i是P的特征值\implies r_i=\sqrt{\lambda_i}$

范数norm|带范数的锥norm cone

范数( $||.||_2，||.||_1，||.||_{\infty}，||.||_p$ )条件：

$||x||\geq 0,仅当x=0时等号成立$
$||tx||=|t|\space||x||,\forall t\isin R$
$||x+y||\leq||x||+||y||$

例如：
带范数的球norm ball： $\{x|\space||x-x_c||\leq r\}$ ，属于凸集。
带范数的锥norm cone： $\{(x,t)|\space||x||\leq t\}$ ，属于凸集。
在这里插入图片描述
证明：通过条件2&3& $||x_1-x_c||\leq r,||x_2-x_c||\leq r$ ，
$||\theta x_1+(1-\theta)x_2-x_c||=||\theta(x_1-x_c)+(1-\theta)(x_2-x_c)||$
$\leq||\theta(x_1-x_c)||+||(1-\theta)(x_2-x_c)||=\theta||x_1-x_c||+(1-\theta)||x_2-x_c||$
$\leq\theta r+(1-\theta)r=r$

多面体Polyhedra

定义：包含等式和不等式，逐点有 $Ax<b，Cx=d，A\isin R^{m\times n}，C\isin R^{p\times n}$ ，属于凸集，是半空间和超平面的有限点的交集。
在这里插入图片描述

半正定矩阵的锥Positive semideﬁnite cone

定义：

$n\times n$ 的对称矩阵(n阶方阵)： $S^n$ ，维度是 $\frac{n(n+1)}{2}$
$\begin{vmatrix} \begin{bmatrix} x & y \\ y & z \end{bmatrix}-\lambda I \end{vmatrix}=0$
$(x-\lambda)(z-\lambda)-y^2=0$
$\lambda^2-(x+z)\lambda+xz-y^2=0$ 所以有： $xz-y^2\geq0，\frac{x+z}{2}>0$
半正定的对称矩阵： $S_{+}^n=X=\{s\isin S^n|x\geq 0\},就是任意非零向量z\isin R^n，都有（二次型）z^TXz\geq 0$ ，属于凸集。
- 半正定矩阵的行列式是非负的；所有主子式均为非负的；所有特征值均为非负的；
  比如： $z^TXz=(z_1+z_2)^2\geq0$
- （顺序主子式非负并不能推出矩阵是半正定的）；
- 存在实矩阵 $C，使得X=C^TC$
- 存在秩为r的 $r\times n$ 实矩阵 $B，使得X=B^TB$
- 两个半正定矩阵的和是半正定的；非负实数与半正定矩阵的数乘矩阵是半正定的
正定的对称矩阵： $S_{++}^n=X=\{s\isin S^n|x>0\}$
- 正定矩阵的行列式恒为正；一切顺序主子式均为正；所有特征值均为正；
  比如： $z^TXz=z_1^2+z_2^2>0$
- 正定实对称矩阵，与单位矩阵合同；
  实对称矩阵，矩阵转置等于本身
- 存在实可逆矩阵 $C，使得X=C^TC$
- 存在秩为n的 $m\times n$ 实矩阵 $B，使得X=B^TB$
- 存在主对角线元素全为正的实三角矩阵 $R，使得X=R^TR$
- 两个正定矩阵的和是正定矩阵；实数与正定矩阵的乘积是正定矩阵。
正定、半正定矩阵：直觉，代表一个向量经过它的变化后的向量与其本身的夹角小于等于90度。
$cos(\theta)=\frac{z^T(Xz)}{||z||*||(Xz)||}\geq0$

保凸运算Operations that preserve convexity

证明是凸集C的方法：

定义法
$x_1,x_2\isin C,\theta \isin [0,1]=>x=\theta x_1+(1-\theta)x_2\isin C$
通过简单集合(超平面，多面体，球体)变化求证（主要是以下二级标题的四种）

求交集Intersection

定义：

假设： $x_1,x_2\isin C_1\cap C_2$
结论： $\theta x_1+(1-\theta)x_2\isin C_1\cap C_2$

例子：
$S=\{x\isin R^m |\space |p(t)|\leq1 \space for\space |t|\leq\frac{\pi}{3}\}$
$p(t)=x_1cost+x_2cos2t+...+x_mcosmt=(cost,cos2t,...,cosmt)\begin{pmatrix} x_1 \\ x_2 \\. \\. \\. \\x_m \end{pmatrix}=C(t)^Tx$
$S_t=\{x\isin R^m|\space |P(t)|\leq1\}=\{x\isin R^m|\space P(t)\leq1\}\cap\{x\isin R^m|\space P(t)\geq-1\}（2个半空间的交集）$
所以 $S=\cap_{|t|\leq\frac{\pi}{3}}S_t$
若m=2，有下图
在这里插入图片描述

仿射变换Affine function

定义：

假设：若 $f(x)=Ax+b,A\isin R^{m\times n},b\isin R^m$
结论：那么有仿射集 $f:R^n->R^m$

线性变换只能保证从（线性-1）到（线性-2），（曲线）可变（直线/曲线）
所以凸集线性变换后仍是凸集，但是凹集B（非满秩）可变为凸集A，B在线性变换下的原像是一个包含A的凸集
若 $S\subseteq R^n是凸集$

$=>f(S)=\{f(x)|x\isin S\}是凸集$
$f^{-1}(C)=\{x|f(x)=C\}是凸集$

例子：
scaling（尺度变换），translation（平移），projection（投影），hyperbolic cone（双曲锥）
比如：（推导-仿射变换）双曲锥： $\{x|\space x^TPx\leq(C^Tx)^2，C^Tx\geq0\}，P\isin S_+^n(半正定矩阵，对角化P^{\frac{1}{2}}不一定可逆)$

将P转换： $P=A^TA，A$ 是实矩阵
设 $C^Tx=t$
于是仿射变换 $x^TPx=z^Tz$
得到 $S'=\{z|z^Tz\leq t^2,t\geq 0\}$ (二阶锥second-order cone属于凸集)
所以S也是凸集（convex）

感知函数Perspective function

定义：

$P：R^{n+1}\rightarrow R^n$
$f(x,t)=\frac{x}{t}，domP=\{(x,t)|t>0\}$ (小孔成像类似投影)

证明：凸集经过感知函数P仍然是凸集
假设： $x,y\isin C,\theta x+(1-\theta)y\isin C,\theta\isin[0,1],P(x)=\frac{\widetilde{x}}{x_{n+1}}$
结论： $\theta P(x)+(1-\theta)P(y)\isin P(C)$
推导： $P(\theta x+(1-\theta)y)=\frac{\widetilde{\theta x+(1-\theta)y}}{(\theta x+(1-\theta)y)_{n+1}}$

$=\frac{\theta\widetilde{x}+(1-\theta)\widetilde{y}}{\theta x_{n+1}+(1-\theta)y_{n+1}}=\frac{\theta\frac{\widetilde{x}}{x_{n+1}}x_{n+1}+(1-\theta)\frac{\widetilde{y}}{y_{n+1}}y_{n+1}}{\theta x_{n+1}+(1-\theta)y_{n+1}}$

$=\frac{\theta P(x)x_{n+1}+(1-\theta)P(y)y_{n+1}}{\theta x_{n+1}+(1-\theta)y_{n+1}}=\alpha P(x)+(1-\alpha)P(y)$

其中 $\alpha=\frac{\theta x_{n+1}}{\theta x_{n+1}+(1-\theta)y_{n+1}}$

线性分式函数Linear-fractional function

定义：

$f：R^{n}\rightarrow R^m$
$f(x)=\frac{Ax+b}{C^Tx+d}，domf=\{x|C^Tx+d>0\}$ (仿射变换( $A x + b$ )+感知函数( $C^Tx+d>0$ )的组合)
结论：其原象（image）和反象（逆inverse）都是保持凸性的，线性分式函数是能保持凸性的运算
例子：性状（凹凸/角）基本不变，就是部分拉伸

广义不等关系

好锥proper cone

定义：凸集 $K\subseteq R^n$ 满足以下条件就是一个好的锥（proper cone）

K要包含边界(closed-闭/边界线)
K不是一条射线(solid-有内点/实心)
K是有方向的,不包含其反方向(pointed-尖)
pointed cone尖锥

举例：

非负实数集： $K=R_+^n=\{x\isin R^n|x_i\geq 0,i=1,...,n\}$
对称半正定矩阵的锥positive semidefinite cone： $K=S_+^n$ ，内部是一个对称正定矩阵
非负多项式nonnegative polynominal： $K=\{x\isin R^n|x+x_2t+x_3t^2+...+x_nt^{n-1}\geq0，for\space t\isin[0,1]\}$

偏序Generalized Inequality

偏序：部分元素的二元关系成立；全序：任何一对元素的二元关系都成立
全序关系必定是偏序关系
定义：通过proper cone定义，是关于某种集合K

$x\preceq_Ky\iff y-x\isin K$
$x\prec_Ky\iff y-x\isin Int K(指K的内点)$

例子ex：

分量偏序-componentwise inequality（ $K=R_+^n$ ）每一个相减以后符号都一样
$x\preceq_{R_+^n}y$ $\iff x_i\leq y_i,i=1,...,n$
矩阵偏序-matrix inequality（ $K=S_+^n$ ）每一个相减以后都是半正定矩阵
$X\preceq_{R_+^n}Y$ $\iff Y-X\isin S_+^n$

性质：支持加法运算
$x\preceq_Ky，u\preceq_Kv \implies (x+u)\preceq_K(y+v)$

由此可以比较找出最大/最小值

最小化Minimum

最小元Minimum elements定义：（w.r.t=with respect to）关于某种顺序K下，如果符合条件： $\forall y\isin S\implies x\preceq_Ky$ ，那么x是集合S中的最小元【别的都比他大】。
任意的y都可以和x比较，举例 $K=R_+^2$ ，下图中，单点 $x_1$ 是 $S_1$ 的最小元。
在这里插入图片描述
极小元Minimal elements定义：（w.r.t=with respect to）关于某种顺序K下，如果符合条件： $\forall y\isin S，y\preceq_Kx\implies y=x$ ，那么x是集合S中的极小元【没有比他小的】。
举例 $K=R_+^2$ ，下图中，点 $x_2$ 所在的边界线是 $S_2$ 的极小元。
在这里插入图片描述

(线性)可分超平面定理Separating hyperplane theorem

定义：
对于不相交（disjoint）的非空凸集C和D，存在一个向量 $a\neq (0或b)$ ，都有 $a^Tx\leq b\space for\space x\isin C，a^Tx\geq b\space for\space x\isin D$ ，分割出C和D的超平面就是 ${x|a^Tx=b\}$
在这里插入图片描述
最优化建模：
假设 $坐标d\isin D,坐标c\isin C,||d-c||=inf(下确界)\{||u-v||\space|u\isin D,v\isin C\}$ ,
那么超平面符合 $f(x)=(d-c)^T(x-\frac{d+c}{2})=0$
$（d-c是向量,和中点方向\frac{d+c}{2}垂直,所以用转置）$
证明：
$f(x)=\begin{cases}\geq 0，x\isin D \\ \leq 0，x\isin C \end{cases}$
$u\isin D，f(u)\geq 0$
$(d-c)^T(u-\frac{d+c}{2})=(d-c)^T(u-d+\frac{d-c}{2})=(d-c)^T(u-d)+\frac{||d-c||_2^2}{2}$

反证法：设 $f(u)\leq 0$ ，因为 $\frac{||d-c||_2^2}{2}$ 肯定大于0，所以 $(d-c)^T(u-d)\leq 0$

设置函数： $g(t)=||d-c+t(u-d)||_2^2，g’(t)=2(d-c+t(u-d))$
有导数 $g'(0)=2(d-c)^T(u-d)\leq 0$
所以： $\exist t>0,s.t(so\space that)||d-c+t(u-d)||_2^2<||d-c||_2^2$ ，这与 $d - c$ 是最小距离的假设相互矛盾

严格可分超平面
充分条件：例如：一个集合是闭的，一个集合是开的，那么，一定可分割

支撑面Supporting hyperplane theorem

定义：
点集C的边界点 $x_0$ 上衍生出的一条直线 ${x|a^Tx=a^Tx_0\}$ ，保证C完全在线的某一侧
其中，向量 $a\neq 0,且\forall x\isin C,有a^Tx\leq a^Tx_0$
在这里插入图片描述
性质：
如果C是凸集，那么C的每一个边界点都存在一个支撑面

对偶Dual cone

对偶定义

锥K的对偶定义： $K^*=\{y|y^Tx\geq 0\space for\space all\space x\isin K\}$ （保证选取的向量，与锥内的点向量之间，都保持直角以下的关系）
在这里插入图片描述

对偶举例

自对偶self-dual cones
- $K=R_+^n\implies K^*=R_+^n$ (非负实数集)
- $K=S_+^n\implies K^*=S_+^n$ (半正定对称矩阵)
- $K=\{(x,t)|\space||x||_2\leq t\}\implies K^*=\{(x,t)|\space||x||_2\leq t\}$ (第二范数恒为正)
普通对偶
- $K=\{(x,t)|\space||x||_1\leq t\}\implies K^*=\{(x,t)|\space||x||_\infty \leq t\}$ (第一范数是绝对值，对偶是其向量的最大值)

对偶性质

对偶也是凸集convex
$u,v\isin K^*,(\theta u+(1-\theta)v)^Tx=\theta u^Tx+(1-\theta)v^Tx\geq0,所以对\theta\isin[0,1],有\theta u+(1-\theta)v\isin K^*$
锥cone不一定是convex的，如下图
$K^{**}是K$ 的凸包
当 $K$ 是凸集， $K^{**}=K$ ，

对偶的偏序关系

proper cones的对偶也是proper的
其偏序的定义： $y\succeq_{K^*}0\iff y^Tx\geq 0\space for \space all \space x\succeq_K0$
注意： $y\isin K^*,x\isin K$

对偶的最小化

最小元minimum element
$\forall向量\lambda\isin K^*(\lambda\succeq_{K^*}0),\forall x,z\isin S,有\lambda^Tx\leq \lambda^Tz，所以x就是点集S关于对偶K^*的最小元$
极小元minimal element
$\exist向量\lambda\isin K^*(\lambda\succeq_{K^*}0),\forall x,z\isin S,有\lambda^Tx\leq \lambda^Tz，所以x就是点集S关于对偶K^*的极小元$

总结

基本概念
- 凸集和仿射集
  凸集convex是 $\theta\isin [0,1]$ ,仿射集affine是 $\theta\isin R$ ，所以凸集不一定是仿射集
- 凸组合和凸包
  两个x扩展到k个x的组合
- 凸锥
  任意一个x，而且 $\theta\geq 0$
- 超平面和半空间
  超平面：凸+仿射；半空间：凸+非仿射
- 球体和椭球
  半径的取值变换
- 范数
  带范数的球和带范数的锥都是凸的
- 多面体和半正定矩阵
  这些都是凸的
保凸运算
通过简单集合(超平面，多面体，球体)变化求证
- 交集
  就是求得半空间的交集
- 仿射变换
  类似线性变换+平移，仍保持线性结构
- 感知函数
  函数形式是分式，类似投影效果
- 线性反分式函数
  感知函数的形式，分子利用了仿射变换
不等关系
- 好锥的定义
  凸convex，闭closed，实solid，尖pointed
- 偏序
  部分元素成立的二元关系
- 最小化
  最小元-锥尖；极小元-底线
- 可分超平面
  区分两个可分割的点集
- 支撑面
  凸集的每个边界点都有支撑面
对偶
- 定义
  向量-内积大于0，矩阵-迹大于0
- 性质
  对偶是凸的， $K^{**}是K$ 的凸包
- 最小化
  最小元-锥尖-任意向量λ；极小元-由一个向量λ决定