github博客文章链接
b站凌青老师凸优化课程1-6课笔记。
什么是优化
优化就是从一个可行解的集合中,寻找出最优的元素。写成数学形式:
minimize f 0 ( x ) subject to f i ( x ) ≤ b i i = 1 , ⋯ , M \begin{aligned} &\text{minimize }f_0(x)\\ &\text{subject to }f_i(x)\le b_i\quad i=1,\cdots,M \end{aligned} minimize f0(x)subject to fi(x)≤bii=1,⋯,M
其中 x = [ x 1 , ⋯ , x n ] T x=[x_1,\cdots,x_n]^T x=[x1,⋯,xn]T 称为优化变量, f 0 : R n → R f_0:\R^n\to \R f0:Rn→R 称为目标函数, f i : R n → R f_i:\R^n\to \R fi:Rn→R 称为不等式约束。
优化问题的分类
优化问题一般有如下分类,其中前者通常较简单,后者通常较难。
线性规划 / 非线性规划
称 f f f 为线性函数如果 f ( α x + β y ) = α f ( x ) + β f ( y ) f(\alpha x+\beta y)=\alpha f(x)+\beta f(y) f(αx+βy)=αf(x)+βf(y)。
若限制函数和目标函数均为线性函数,则称该问题为线性规划,否则称其为非线性规划。
凸规划 / 非凸规划
称 f f f 是凸函数如果 f ( α x + β y ) ≤ α f ( x ) + β f ( y ) f(\alpha x+\beta y)\le \alpha f(x)+\beta f(y) f(αx+βy)≤αf(x)+βf(y)。
若限制函数和目标函数均为凸函数,则称该问题为凸规划,否则称其为非凸规划。
通常还有光滑 / 非光滑,连续 / 离散,单目标 / 多目标等分类。
凸集
直线和线段
对于 x 1 ≠ x 2 ∈ R n x_1\neq x_2\in \R^n x1=x2∈Rn,定义过 x 1 , x 2 x_1,x_2 x1,x2 的直线为
{ θ x 1 + ( 1 − θ ) x 2 ∣ θ ∈ R } \{\theta x_1+(1-\theta)x_2|\theta\in \R\} {
θx1+(1−θ)x2∣θ∈R}
定义 x 1 , x 2 x_1,x_2 x1,x2 构成的线段为
{ θ x 1 + ( 1 − θ ) x 2 ∣ θ ∈ [ 0 , 1 ] } \{\theta x_1+(1-\theta)x_2|\theta\in [0,1]\} {
θx1+(1−θ)x2∣θ∈[0,1]}
仿射集
定义
定义1 称集合 C C C 是仿射集,若 ∀ x 1 , x 2 ∈ C \forall x_1,x_2\in C ∀x1,x2∈C,连接 x 1 x_1 x1 与 x 2 x_2 x2 的直线都在 C C C 内。
仿射组合 设 x 1 , ⋯ , x k x_1,\cdots,x_k x1,⋯,xk,称 θ 1 x 1 + ⋯ + θ k x k \theta_1x_1+\cdots+\theta_kx_k θ1x1+⋯+θkxk 为其仿射组合,其中 θ 1 , ⋯ , θ k ∈ R \theta_1,\cdots,\theta_k\in \R θ1,⋯,θk∈R,且 θ 1 + ⋯ + θ k = 1 \theta_1+\cdots+\theta_k=1 θ1+⋯+θk=1。
定义2 称集合 C C C 是仿射集,若 ∀ x 1 , ⋯ , x k ∈ c \forall x_1,\cdots,x_k\in c ∀x1,⋯,xk∈c,它们的所有仿射组合都在 C C C 内。
定理
上述两个定义等价。
证明 由定义2显然可以推出定义1。往证由定义1可推出定义2。
假设有仿射集 C C C,先证任意三个元素的仿射组合都在 C C C 中。取 x 1 , x 2 , x 3 ∈ c x_1,x_2,x_3\in c x1,x2,x3∈c, θ 1 , θ 2 , θ 3 ∈ R \theta_1,\theta_2,\theta_3\in \R θ1,θ2,θ3∈R 且 θ 1 + θ 2 + θ 3 = 1 \theta_1+\theta_2+\theta_3=1 θ1+θ2+θ3=1,根据定义1可知
θ 1 θ 1 + θ 2 x 1 + θ 2 θ 1 + θ 2 x 2 ∈ C \frac{\theta_1}{\theta_1+\theta_2}x_1+\frac{\theta_2}{\theta_1+\theta_2}x_2\in C θ1+θ2θ1x1+θ1+θ2θ2x2∈C
那么有
( θ 1 + θ 2 ) ( θ 1 θ 1 + θ 2 x 1 + θ 2 θ 1 + θ 2 x 2 ) + ( 1 − θ 1 − θ 2 ) x 3 ∈ C (\theta_1+\theta_2)\left(\frac{\theta_1}{\theta_1+\theta_2}x_1+\frac{\theta_2}{\theta_1+\theta_2}x_2\right)+(1-\theta_1-\theta_2)x_3\in C (θ1+θ2)(θ1+θ2θ1x1+θ1+θ2θ2x2)+(1−θ1−θ2)x