凸函数学习

前置知识

凸集

凸函数

设函数 f : C → R f: C\to \mathbb{R} f:CR是定义在凸集 C ⊆ R n C\subseteq \mathbb{R}^n CRn的,
如果
f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) ∀ x 1 , x 2 ∈ C , λ ∈ [ 0 , 1 ] f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})\le \theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})\quad \forall \boldsymbol{x}_1,\boldsymbol{x}_2\in C,\lambda \in \left[0,1\right] f(θx+(1θ)y)θf(x)+(1θ)f(y)x1,x2C,λ[0,1]
则称 f f f为凸函数

严格凸函数

设函数 f : C → R f: C\to \mathbb{R} f:CR是定义在凸集 C ⊆ R n C\subseteq \mathbb{R}^n CRn的,
如果
f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) ∀ x 1 , x 2 ∈ C , x 1 ≠ x 2 , λ ∈ ( 0 , 1 ) f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})\le \theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})\quad \forall \boldsymbol{x}_1,\boldsymbol{x}_2\in C,\mathbf{x}_1\neq \mathbf{x}_2,\lambda \in \left(0,1\right) f(θx+(1θ)y)θf(x)+(1θ)f(y)x1,x2C,x1=x2,λ(0,1)
则称 f f f为严格凸函数

强凸函数

∃ m > 0 \exists m>0 m>0,使得
g ( x ) = f ( x ) − m 2 ∥ x ∥ 2 g(\boldsymbol{x})=f(\boldsymbol{x})-\frac{m}{2}\Vert x\Vert^2 g(x)=f(x)2mx2
为凸函数,则称 f ( x ) f(\boldsymbol{x}) f(x)强凸函数,其中 m m m强凸参数
f ( θ x + ( 1 − θ ) y ) = g ( θ x + ( 1 − θ ) y ) + m 2 ∥ θ x + ( 1 − θ ) y ∥ 2 ≤ θ g ( x ) + ( 1 − θ ) g ( y ) + m 2 ∥ θ x + ( 1 − θ ) y ∥ 2 = θ f ( x ) − m 2 θ ∥ x ∥ 2 + ( 1 − θ ) f ( y ) − m 2 ( 1 − θ ) ∥ y ∥ 2 + m 2 ∥ θ x + ( 1 − θ ) y ∥ 2 = θ f ( x ) + ( 1 − θ ) f ( y ) + m 2 ( ∥ θ x + ( 1 − θ ) y ∥ 2 − θ ∥ x ∥ 2 − ( 1 − θ ) ∥ y ∥ 2 ) = θ f ( x ) + ( 1 − θ ) f ( y ) + m 2 ( ∑ ( θ x i + ( 1 − θ ) y i ) 2 − θ ∑ x i 2 − ( 1 − θ ) ∑ y i 2 ) = θ f ( x ) + ( 1 − θ ) f ( y ) + m 2 ( θ ( θ − 1 ) ∑ x i 2 − ( 1 − θ ) θ ∑ y i 2 + 2 θ ( 1 − θ ) ∑ x i y i ) = θ f ( x ) + ( 1 − θ ) f ( y ) − m 2 θ ( 1 − θ ) ( ∑ x i 2 + ∑ y i 2 − 2 ∑ x i y i ) = θ f ( x ) + ( 1 − θ ) f ( y ) − m 2 θ ( 1 − θ ) ∥ x − y ∥ 2 \begin{aligned} &\quad f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})\\ &=g(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})+\frac{m}{2}\Vert \theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\Vert^2\\ &\le \theta g(\boldsymbol{x})+(1-\theta)g(\boldsymbol{y})+\frac{m}{2}\Vert \theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\Vert^2\\ &=\theta f(\boldsymbol{x})-\frac{m}{2}\theta\Vert \boldsymbol{x}\Vert^2+(1-\theta)f(\boldsymbol{y})-\frac{m}{2}(1-\theta)\Vert \boldsymbol{y}\Vert^2+\frac{m}{2}\Vert \theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\Vert^2\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})+\frac{m}{2}(\Vert \theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\Vert^2-\theta\Vert \boldsymbol{x}\Vert^2-(1-\theta)\Vert \boldsymbol{y}\Vert^2)\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})+\frac{m}{2}(\sum (\theta x_i+(1-\theta)y_i)^2-\theta\sum x_i^2-(1-\theta)\sum y_i^2)\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})+\frac{m}{2}(\theta(\theta-1)\sum x_i^2-(1-\theta)\theta\sum y_i^2+2\theta(1-\theta)\sum x_iy_i)\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})-\frac{m}{2}\theta(1-\theta)(\sum x_i^2+\sum y_i^2-2\sum x_iy_i)\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})-\frac{m}{2}\theta(1-\theta)\Vert \boldsymbol{x}-\boldsymbol{y}\Vert^2 \end{aligned} f(θx+(1θ)y)=g(θx+(1θ)y)+2mθx+(1θ)y2θg(x)+(1θ)g(y)+2mθx+(1θ)y2=θf(x)2mθx2+(1θ)f(y)2m(1θ)y2+2mθx+(1θ)y2=θf(x)+(1θ)f(y)+2m(θx+(1θ)y2θx2(1θ)y2)=θf(x)+(1θ)f(y)+2m((θxi+(1θ)yi)2θxi2(1θ)yi2)=θf(x)+(1θ)f(y)+2m(θ(θ1)xi2(1θ)θyi2+2θ(1θ)xiyi)=θf(x)+(1θ)f(y)2mθ(1θ)(xi2+yi22xiyi)=θf(x)+(1θ)f(y)2mθ(1θ)xy2
所以等价定义
∃ m > 0 \exists m>0 m>0,使得 ∀ x , y ∈ d o m f , θ ∈ ( 0 , 1 ) \forall x,y\in \bold{dom}f,\theta\in(0,1) x,ydomf,θ(0,1)

f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) − m 2 θ ( 1 − θ ) ∥ x − y ∥ 2 f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})\le \theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})-\frac{m}{2}\theta(1-\theta)\Vert \boldsymbol{x}-\boldsymbol{y}\Vert^2 f(θx+(1θ)y)θf(x)+(1θ)f(y)2mθ(1θ)xy2
则称 f ( x ) f(\boldsymbol{x}) f(x)为强凸函数,其中 m m m为强凸参数

凸函数判定

定理1

f ( x ) f(\boldsymbol{x}) f(x)是凸函数当且仅当 ∀ x ∈ d o m   f , v ∈ R n , g : R → R , \forall \boldsymbol{x} \in \bold{dom}\ f,\boldsymbol{v}\in\mathbb{R}^n,g:\mathbb{R}\to \mathbb{R}, xdom f,vRn,g:RR,
g ( t ) = f ( x + t v ) , d o m   g = { t ∣ x + t v ∈ d o m   f } g(t)=f(\boldsymbol{x}+t\boldsymbol{v}),\bold{dom}\ g=\{t\mid\boldsymbol{x}+t\boldsymbol{v}\in\bold{dom}\ f\} g(t)=f(x+tv),dom g={tx+tvdom f}
是凸函数
证明:
必要性:设 f ( x ) f(\boldsymbol{x}) f(x)是凸函数
∀ t 1 , t 2 ∈ d o m   g , θ ∈ ( 0 , 1 ) \forall t_1,t_2\in \bold{dom}\ g,\theta\in(0,1) t1,t2dom g,θ(0,1)
x + t 1 v ∈ d o m   f x + t 2 v ∈ d o m   f \boldsymbol{x}+t_1\boldsymbol{v}\in\bold{dom}\ f\\ \boldsymbol{x}+t_2\boldsymbol{v}\in\bold{dom}\ f\\ x+t1vdom fx+t2vdom f
d o m   f \bold{dom}\ f dom f是凸集,立即推
x + ( θ t 1 + ( 1 − θ ) t 2 ) v ∈ d o m   f \boldsymbol{x}+(\theta t_1+(1-\theta)t_2)\boldsymbol{v}\in\bold{dom}\ f x+(θt1+(1θ)t2)vdom f
所以 θ t 1 + ( 1 − θ ) t 2 ∈ d o m   g \theta t_1+(1-\theta)t_2\in \bold{dom}\ g θt1+(1θ)t2dom g,即 d o m   g \bold{dom}\ g dom g为凸集
g ( θ t 1 + ( 1 − θ ) t 2 ) = f ( x + ( θ t 1 + ( 1 − θ ) t 2 ) v ) = f ( θ ( x + t 1 v ) + ( 1 − θ ) ( x + t 2 v ) ) ⩽ θ f ( x + t 1 v ) + ( 1 − θ ) f ( x + t 2 v ) = θ g ( t 1 ) + ( 1 − θ ) g ( t 2 ) . \begin{aligned} g\left(\theta t_{1}+(1-\theta) t_{2}\right) &=f\left(\boldsymbol{x}+\left(\theta t_{1}+(1-\theta) t_{2}\right) \boldsymbol{v}\right) \\ &=f\left(\theta\left(\boldsymbol{x}+t_{1} \boldsymbol{v}\right)+(1-\theta)\left(\boldsymbol{x}+t_{2} \boldsymbol{v}\right)\right) \\ & \leqslant \theta f\left(\boldsymbol{x}+t_{1} \boldsymbol{v}\right)+(1-\theta) f\left(\boldsymbol{x}+t_{2} \boldsymbol{v}\right) \\ &=\theta g\left(t_{1}\right)+(1-\theta) g\left(t_{2}\right) . \end{aligned} g(θt1+(1θ)t2)=f(x+(θt1+(1θ)t2)v)=f(θ(x+t1v)+(1θ)(x+t2v))θf(x+t1v)+(1θ)f(x+t2v)=θg(t1)+(1θ)g(t2).
所以 g ( t ) g(t) g(t)是凸函数

充分性:
v = y − x , t 1 = 0 , t 2 = 1 \boldsymbol{v}=\boldsymbol{y}-\boldsymbol{x},t_1=0,t_2=1 v=yx,t1=0,t2=1
d o m   g \bold{dom}\ g dom g是凸集可知, θ ⋅ 0 + ( 1 − θ ) ⋅ 1 ∈ d o m   g \theta\cdot 0+(1-\theta)\cdot 1\in \bold{dom}\ g θ0+(1θ)1dom g
θ x + ( 1 − θ ) y ∈ d o m   f \theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\in\bold{dom}\ f θx+(1θ)ydom f是凸集
g ( 1 − θ ) = g ( θ t 1 + ( 1 − θ ) t 2 ) ⩽ θ g ( t 1 ) + ( 1 − θ ) g ( t 2 ) = θ g ( 0 ) + ( 1 − θ ) g ( 1 ) = θ f ( x ) + ( 1 − θ ) f ( y ) \begin{aligned} g(1-\theta) &=g\left(\theta t_{1}+(1-\theta) t_{2}\right) \\ & \leqslant \theta g\left(t_{1}\right)+(1-\theta) g\left(t_{2}\right) \\ &=\theta g(0)+(1-\theta) g(1) \\ &=\theta f(x)+(1-\theta) f(y) \end{aligned} g(1θ)=g(θt1+(1θ)t2)θg(t1)+(1θ)g(t2)=θg(0)+(1θ)g(1)=θf(x)+(1θ)f(y)
g ( 1 − θ ) = f ( x + ( 1 − θ ) ( y − x ) ) = f ( θ x + ( 1 − θ ) y ) g(1-\theta)=f( \boldsymbol{x}+(1-\theta)(\boldsymbol{y}- \boldsymbol{x}))=f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}) g(1θ)=f(x+(1θ)(yx))=f(θx+(1θ)y)
所以 f ( x ) f( \boldsymbol{x}) f(x)是凸函数

一阶条件

f : C → R f:C\to \mathbb{R} f:CR是定义在凸集 C ⊆ R n C\subseteq \mathbb{R}^n CRn的连续可微的函数,那么 f f f是凸函数当且仅当
f ( y ) ⩾ f ( x ) + ∇ f ( x ) T ( y − x ) , ∀ x , y ∈ C f(\boldsymbol{y}) \geqslant f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x}), \quad \forall \boldsymbol{x}, \boldsymbol{y} \in C f(y)f(x)+f(x)T(yx),x,yC
证明:
必要性: f f f是凸函数
如果 x = y \mathbf{x}=\mathbf{y} x=y,显然成立
x ≠ y \mathbf{x}\neq \mathbf{y} x=y
∀ x , y ∈ C \forall \boldsymbol{x},\boldsymbol{y}\in C x,yC,以及 λ ∈ ( 0 , 1 ] \lambda \in\left(0,1\right] λ(0,1],有
λ f ( y ) + ( 1 − λ ) f ( x ) ⩾ f ( x + λ ( y − x ) ) f ( y ) − f ( x ) ⩾ f ( x + λ ( y − x ) ) − f ( x ) λ \begin{aligned} \lambda f(\boldsymbol{y})+(1-\lambda) f(\boldsymbol{x}) &\geqslant f(\boldsymbol{x}+\lambda(\boldsymbol{y}-\boldsymbol{x}))\\ f(\boldsymbol{y})-f(\boldsymbol{x}) &\geqslant \frac{f(\boldsymbol{x}+\lambda(\boldsymbol{y}-\boldsymbol{x}))-f(\boldsymbol{x})}{\lambda} \end{aligned} λf(y)+(1λ)f(x)f(y)f(x)f(x+λ(yx))λf(x+λ(yx))f(x)
λ → 0 + \lambda\to 0^+ λ0+,利用保号性
f ( y ) − f ( x ) ⩾ lim ⁡ λ → 0 + f ( x + λ ( y − x ) ) − f ( x ) λ = ∇ f ( x ) T ( y − x ) f(\boldsymbol{y})-f(\boldsymbol{x}) \geqslant \lim _{\lambda \rightarrow 0^+} \frac{f(\boldsymbol{x}+\lambda(\boldsymbol{y}-\boldsymbol{x}))-f(\boldsymbol{x})}{\lambda}=\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x}) f(y)f(x)λ0+limλf(x+λ(yx))f(x)=f(x)T(yx)
充分性:
x , y ∈ C \boldsymbol{x},\boldsymbol{y}\in C x,yC,以及 λ ∈ ( 0 , 1 ) \lambda \in(0,1) λ(0,1)
z = λ x + ( 1 − λ ) y \boldsymbol{z}=\lambda\boldsymbol{x}+(1-\lambda)\boldsymbol{y} z=λx+(1λ)y
f ( x ) ⩾ f ( z ) + ∇ f ( z ) T ( x − z ) f ( y ) ⩾ f ( z ) + ∇ f ( z ) T ( y − z ) \begin{aligned} &f(\boldsymbol{x}) \geqslant f(\boldsymbol{z})+\nabla f(\boldsymbol{z})^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{z}) \\ &f(\boldsymbol{y}) \geqslant f(z)+\nabla f(\boldsymbol{z})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{z}) \end{aligned} f(x)f(z)+f(z)T(xz)f(y)f(z)+f(z)T(yz)
于是
λ f ( x ) + ( 1 − t ) f ( y ) ⩾ f ( z ) + 0 = f ( λ x + ( 1 − λ ) y ) \lambda f(\boldsymbol{x})+(1-t) f(\boldsymbol{y}) \geqslant f(\boldsymbol{z})+0=f(\lambda \boldsymbol{x}+(1-\lambda )\boldsymbol{y}) λf(x)+(1t)f(y)f(z)+0=f(λx+(1λ)y)

推论1

定义在凸集上的可微函数 f f f f f f是严格凸函数,当且仅当
f ( y ) > f ( x ) + ∇ f ( x ) T ( y − x ) , ∀ x , y ∈ dom ⁡ f f(\boldsymbol{y}) > f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x}), \quad \forall \boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f f(y)>f(x)+f(x)T(yx),x,ydomf

推论2

定义在凸集上的可微函数 f f f f f f是强凸函数,当且仅当
f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) + m 2 ∥ y − x ∥ 2 , ∀ x , y ∈ dom ⁡ f f(\boldsymbol{y}) \ge f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x})+\frac{m}{2}\Vert \boldsymbol{y}-\boldsymbol{x}\Vert^2, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f f(y)f(x)+f(x)T(yx)+2myx2,x,ydomf

推论3

f : R n → R f:\mathbb{R}^{n}\to \mathbb{R} f:RnR是一个连续可微的凸函数,则 ∇ f ( x ∗ ) = 0 \nabla f(\mathbf{x}^{*})=0 f(x)=0当且仅当 x ∗ \mathbf{x}^{*} x是一个全局极小值点
证明:
必要性:
∇ f ( x ∗ ) = 0 \nabla f(\mathbf{x}^{*})=0 f(x)=0

根据一阶条件
∀ x ∈ dom ⁡ f , f ( x ) ⩾ f ( x ∗ ) + ∇ f ( x ∗ ) T ( x − x ∗ ) = f ( x ∗ ) \forall \mathbf{x}\in \operatorname{dom} f,f(\boldsymbol{x}) \geqslant f(\mathbf{x}^{*})+\nabla f(\mathbf{x}^{*})^{\mathrm{T}}(\boldsymbol{x}-\mathbf{x}^{*})=f(\mathbf{x}^{*}) xdomf,f(x)f(x)+f(x)T(xx)=f(x)
充分性:
显然

梯度单调性

f f f是一个定义在 C ⊆ R n C\subseteq \mathbb{R}^n CRn的连续可微的函数,则 f f f为凸函数当且仅当
( ∇ f ( x ) − ∇ f ( y ) ) T ( x − y ) ⩾ 0 , ∀ x , y ∈ C (\nabla f(\boldsymbol{x})-\nabla f(\boldsymbol{y}))^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) \geqslant 0, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in C (f(x)f(y))T(xy)0,x,yC
证明:
必要性: f f f是凸函数
根据一阶条件
f ( y ) ⩾ f ( x ) + ∇ f ( x ) T ( y − x ) f ( x ) ⩾ f ( y ) + ∇ f ( y ) T ( x − y ) \begin{aligned} &f(\boldsymbol{y}) \geqslant f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x}) \\ &f(\boldsymbol{x}) \geqslant f(\boldsymbol{y})+\nabla f(\boldsymbol{y})^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) \end{aligned} f(y)f(x)+f(x)T(yx)f(x)f(y)+f(y)T(xy)
相加得
( ∇ f ( x ) − ∇ f ( y ) ) T ( x − y ) ⩾ 0 , ∀ x , y ∈ C (\nabla f(\boldsymbol{x})-\nabla f(\boldsymbol{y}))^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) \geqslant 0, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in C (f(x)f(y))T(xy)0,x,yC

充分性:
g ( t ) = f ( x + t ( y − x ) ) , g ′ ( t ) = ∇ f ( x + t ( y − x ) ) T ( y − x ) g(t)=f(\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x})), \quad g^{\prime}(t)=\nabla f(\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x}))^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x}) g(t)=f(x+t(yx)),g(t)=f(x+t(yx))T(yx)

因为 ( ∇ f ( x + t ( y − x ) ) − ∇ f ( x ) ) T t ( y − x ) ⩾ 0 (\nabla f(\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x}))-\nabla f(\boldsymbol{x}))^{\mathrm{T}}t(\boldsymbol{y}-\boldsymbol{x}) \geqslant 0 (f(x+t(yx))f(x))Tt(yx)0
所以 ∀ t > 0 , g ′ ( t ) ≥ g ′ ( 0 ) \forall t>0,g'(t)\ge g'(0) t>0,g(t)g(0)
f ( y ) = g ( 1 ) = g ( 0 ) + ∫ 0 1 g ′ ( t ) d t ⩾ g ( 0 ) + g ′ ( 0 ) = f ( x ) + ∇ f ( x ) T ( y − x ) \begin{aligned} f(\boldsymbol{y}) &=g(1)=g(0)+\int_{0}^{1} g^{\prime}(t) \mathrm{d} t \\ & \geqslant g(0)+g^{\prime}(0)\\ &=f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x}) \end{aligned} f(y)=g(1)=g(0)+01g(t)dtg(0)+g(0)=f(x)+f(x)T(yx)
所以 f f f是凸函数

推论1

f f f是严格凸函数当且仅当
( ∇ f ( x ) − ∇ f ( y ) ) T ( x − y ) > 0 , ∀ x , y ∈ dom ⁡ f (\nabla f(\boldsymbol{x})-\nabla f(\boldsymbol{y}))^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) > 0, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f (f(x)f(y))T(xy)>0,x,ydomf

推论2

( ∇ f ( x ) − ∇ f ( y ) ) T ( x − y ) ⩾ m ∥ y − x ∥ 2 , ∀ x , y ∈ dom ⁡ f (\nabla f(\boldsymbol{x})-\nabla f(\boldsymbol{y}))^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) \geqslant m\Vert \boldsymbol{y}-\boldsymbol{x}\Vert^2, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f (f(x)f(y))T(xy)myx2,x,ydomf

二阶条件

f f f是一个定义在开的凸集 C ⊆ R n C\subseteq \mathbb{R}^n CRn的二阶连续可微的函数,则 f f f是凸函数当且仅当
∇ 2 f ( x ) ⪰ 0 \nabla^2 f(\mathbf{x})\succeq 0 2f(x)0
证明:
充分性: ∇ 2 f ( x ) ⪰ 0 \nabla^2 f(\boldsymbol{x})\succeq0 2f(x)0

f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( y − x + t ( y − x ) ) ( y − x ) f(\boldsymbol{y})=f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^T(\boldsymbol{y}-\boldsymbol{x})+\frac{1}{2}(\boldsymbol{y}-\boldsymbol{x})^T\nabla^2f(\boldsymbol{y}-\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x}))(\boldsymbol{y}-\boldsymbol{x}) f(y)=f(x)+f(x)T(yx)+21(yx)T2f(yx+t(yx))(yx)
其中 t ∈ ( 0 , 1 ) t\in(0,1) t(0,1)
于是
f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) f(\boldsymbol{y})\ge f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^T(\boldsymbol{y}-\boldsymbol{x}) f(y)f(x)+f(x)T(yx)

必要性:f是凸函数
假设存在非零向量 v ∈ R n \boldsymbol{v}\in\mathbb{R}^{n} vRn,使得 v T ∇ 2 f ( x ) v < 0 \boldsymbol{v}^T\nabla^2f(\boldsymbol{x})\boldsymbol{v}<0 vT2f(x)v<0
因为 C C C是开集,所以存在足够小的 t > 0 t>0 t>0,使得 x + t v ∈ C \boldsymbol{x}+t\boldsymbol{v}\in C x+tvC
f ( x + t v ) = f ( x ) + t ∇ f ( x ) T v + t 2 2 v T ∇ 2 f ( x ) v + o ( t 2 ∥ v ∥ ) f ( x + t v ) − f ( x ) + t ∇ f ( x ) T v t 2 = 1 2 v T ∇ 2 f ( x ) v + o ( t 2 ∥ v ∥ ) t 2 \begin{aligned} f(\boldsymbol{x}+t\boldsymbol{v})&=f(\boldsymbol{x})+t\nabla f(\boldsymbol{x})^T\boldsymbol{v}+\frac{t^2}{2}\boldsymbol{v}^T\nabla^2f(\boldsymbol{x})\boldsymbol{v}+o(t^2\| \boldsymbol{v} \|)\\ \frac{f(\boldsymbol{x}+t\boldsymbol{v})-f(\boldsymbol{x})+t\nabla f(\boldsymbol{x})^T\boldsymbol{v}}{t^2}&=\frac{1}{2}\boldsymbol{v}^T\nabla^2f(\boldsymbol{x})\boldsymbol{v}+\frac{o(t^2\| \boldsymbol{v} \|)}{t^2} \end{aligned} f(x+tv)t2f(x+tv)f(x)+tf(x)Tv=f(x)+tf(x)Tv+2t2vT2f(x)v+o(t2v)=21vT2f(x)v+t2o(t2v)
f ( x + t v ) − f ( x ) + t ∇ f ( x ) T v t 2 ≥ 0 \frac{f(\boldsymbol{x}+t\boldsymbol{v})-f(\boldsymbol{x})+t\nabla f(\boldsymbol{x})^T\boldsymbol{v}}{t^2}\ge0 t2f(x+tv)f(x)+tf(x)Tv0
所以当 t → 0 + t\to 0^{+} t0+, ∇ 2 f ( x ) ⪰ 0 \nabla^2 f(\boldsymbol{x})\succeq0 2f(x)0

推论1

f f f是一个定义在开的凸集 C ⊆ R n C\subseteq \mathbb{R}^n CRn的二阶连续可微的函数,则 f f f是严格凸函数的充分条件是
∇ 2 f ( x ) ≻ 0 \nabla^2 f(\mathbf{x})\succ 0 2f(x)0
(不是必要条件,如 x 4 x^4 x4

推论2

f f f是一个定义在开的凸集 C ⊆ R n C\subseteq \mathbb{R}^n CRn的二阶连续可微的函数,则 f f f是强凸函数的充要条件是
∇ 2 f ( x ) ⪰ m I \nabla^2f(\mathbf{x})\succeq mI 2f(x)mI

保凸运算

数乘

f f f是定义在凸集 C ⊆ R n C\subseteq \mathbb{R}^{n} CRn的凸函数
α ≥ 0 \alpha\ge 0 α0,则 α f \alpha f αf是定义在凸集 C ⊆ R n C\subseteq \mathbb{R}^{n} CRn的凸函数

加法

f 1 , ⋯   , f p f_1,\cdots,f_p f1,,fp是定义在凸集 C ⊆ R n C\subseteq \mathbb{R}^{n} CRn的凸函数,
f 1 + ⋯ + f p f_1+\cdots + f_p f1++fp是定义在凸集 C ⊆ R n C\subseteq \mathbb{R}^{n} CRn的凸函数

线性变换

f : C → R f:C\to \mathbb{R} f:CR是一个定义在凸集 C ⊆ R n C\subseteq \mathbb{R}^n CRn的函数
A ∈ R n × m , b ∈ R n \mathbf{A}\in\mathbb{R}^{n\times m},\mathbf{b}\in\mathbb{R}^{n} ARn×m,bRn

g ( y ) = f ( A y + b ) g(\mathbf{y})=f(\mathbf{Ay}+\mathbf{b}) g(y)=f(Ay+b)
是一个定义在凸集 D = { y ∈ R m : A y + b ∈ C } D=\left\{\mathbf{y} \in \mathbb{R}^{m}: \mathbf{A} \mathbf{y}+\mathbf{b} \in C\right\} D={yRm:Ay+bC}的凸函数

证明:
首先 D D D是一个由 C C C映射的凸集
D = A − 1 ( C − b ) D=\mathrm{A}^{-1}(C-\mathrm{b}) D=A1(Cb)
y 1 , y 2 ∈ D \mathbf{y}_1,\mathbf{y}_2\in D y1,y2D,设
x 1 = A y 1 + b ∈ C x 2 = A y 2 + b ∈ C \begin{aligned} &\mathbf{x}_{1}=\mathrm{A} \mathbf{y}_{1}+\mathrm{b} \in C\\ &\mathbf{x}_{2}=\mathrm{A} \mathbf{y}_{2}+\mathrm{b} \in C \end{aligned} x1=Ay1+bCx2=Ay2+bC
λ ∈ [ 0 , 1 ] \lambda \in \left[0,1\right] λ[0,1]
f ( λ x 1 + ( 1 − λ ) x 2 ) ≤ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) f ( A ( λ y 1 + ( 1 − λ ) y 2 ) + b ) ≤ λ f ( A y 1 + b ) + ( 1 − λ ) f ( A y 2 + b ) g ( λ y 1 + ( 1 − λ ) y 2 ) ≤ λ g ( y 1 ) + ( 1 − λ ) g ( y 2 ) \begin{aligned} f\left(\lambda \mathbf{x}_{1}+(1-\lambda) \mathbf{x}_{2}\right) &\leq \lambda f\left(\mathbf{x}_{1}\right)+(1-\lambda) f\left(\mathbf{x}_{2}\right)\\ f\left(\mathbf{A}\left(\lambda \mathbf{y}_{1}+(1-\lambda) \mathbf{y}_{2}\right)+\mathbf{b}\right) &\leq \lambda f\left(\mathbf{A y}_{1}+\mathbf{b}\right)+(1-\lambda) f\left(\mathbf{A y}_{2}+\mathbf{b}\right)\\ g\left(\lambda \mathbf{y}_{1}+(1-\lambda) \mathbf{y}_{2}\right) &\leq \lambda g\left(\mathbf{y}_{1}\right)+(1-\lambda) g\left(\mathbf{y}_{2}\right) \end{aligned} f(λx1+(1λ)x2)f(A(λy1+(1λ)y2)+b)g(λy1+(1λ)y2)λf(x1)+(1λ)f(x2)λf(Ay1+b)+(1λ)f(Ay2+b)λg(y1)+(1λ)g(y2)
所以 g g g是凸函数

特殊的复合

f : C → R f:C\to \mathbb{R} f:CR是一个定义在凸集 C ⊆ R n C\subseteq \mathbb{R}^n CRn
g : I → R g:I\to\mathbb{R} g:IR是一个一维的定义在 I ⊆ R I\subseteq \mathbb{R} IR的单调不减的凸函数
假设 f ( C ) ⊆ I f(C)\subseteq I f(C)I
那么复合函数
h ( x ) ≡ g ( f ( x ) ) , x ∈ C h(\mathbf{x}) \equiv g(f(\mathbf{x})), \quad \mathbf{x} \in C h(x)g(f(x)),xC
是一个定义在凸集 C C C上的凸函数

证明:
x , y ∈ C , λ ∈ [ 0 , 1 ] \mathbf{x},\mathbf{y}\in C,\lambda\in \left[0,1\right] x,yC,λ[0,1]

h ( λ x + ( 1 − λ ) y ) = g ( f ( λ x + ( 1 − λ ) y ) ) ≤ g ( λ f ( x ) + ( 1 − λ ) f ( y ) ) ≤ λ g ( f ( x ) ) + ( 1 − λ ) g ( f ( y ) ) = λ h ( x ) + ( 1 − λ ) h ( y ) \begin{aligned} h(\lambda \mathbf{x}+(1-\lambda) \mathbf{y}) &=g(f(\lambda \mathbf{x}+(1-\lambda) \mathbf{y})) \\ & \leq g(\lambda f(\mathbf{x})+(1-\lambda) f(\mathbf{y})) \\ & \leq \lambda g(f(\mathbf{x}))+(1-\lambda) g(f(\mathbf{y})) \\ &=\lambda h(\mathbf{x})+(1-\lambda) h(\mathbf{y}) \end{aligned} h(λx+(1λ)y)=g(f(λx+(1λ)y))g(λf(x)+(1λ)f(y))λg(f(x))+(1λ)g(f(y))=λh(x)+(1λ)h(y)

最大值

f 1 , ⋯   , f p : C → R f_1,\cdots,f_p:C\to \mathbb{R} f1,,fp:CR p p p个定义在凸集 C ⊆ R n C\subseteq \mathbb{R}^n CRn是凸函数,则
f ( x ) ≡ max ⁡ i = 1 , 2 , … , p f i ( x ) f(\mathbf{x}) \equiv \max _{i=1,2, \ldots, p} f_{i}(\mathbf{x}) f(x)i=1,2,,pmaxfi(x)
是定义在 C C C上的凸函数

证明:
x , y ∈ C , λ ∈ [ 0 , 1 ] \mathbf{x},\mathbf{y}\in C,\lambda\in \left[0,1\right] x,yC,λ[0,1],则
f ( λ x + ( 1 − λ ) y ) = max ⁡ i = 1 , 2 , … , p f i ( λ x + ( 1 − λ ) y ) ≤ max ⁡ i = 1 , 2 , … , p { λ f i ( x ) + ( 1 − λ ) f i ( y ) } ≤ λ max ⁡ i = 1 , 2 , … , p f i ( x ) + ( 1 − λ ) max ⁡ i = 1 , 2 , … , p f i ( y ) = λ f ( x ) + ( 1 − λ ) f ( y ) \begin{aligned} f(\lambda \mathbf{x}+(1-\lambda) \mathbf{y}) &=\max _{i=1,2, \ldots, p} f_{i}(\lambda \mathbf{x}+(1-\lambda) \mathbf{y}) \\ & \leq \max _{i=1,2, \ldots, p}\left\{\lambda f_{i}(\mathbf{x})+(1-\lambda) f_{i}(\mathbf{y})\right\} \\ & \leq \lambda \max _{i=1,2, \ldots, p} f_{i}(\mathbf{x})+(1-\lambda) \max _{i=1,2, \ldots, p} f_{i}(\mathbf{y}) \\ &=\lambda f(\mathbf{x})+(1-\lambda) f(\mathbf{y}) \end{aligned} f(λx+(1λ)y)=i=1,2,,pmaxfi(λx+(1λ)y)i=1,2,,pmax{λfi(x)+(1λ)fi(y)}λi=1,2,,pmaxfi(x)+(1λ)i=1,2,,pmaxfi(y)=λf(x)+(1λ)f(y)

最小值

f : C × D → R f:C\times D\to \mathbb{R} f:C×DR是一个定义在 C × D C\times D C×D的凸函数
其中 C ⊆ R m , D ⊆ R n C\subseteq \mathbb{R}^m,D\subseteq \mathbb{R}^n CRm,DRn

g ( x ) = min ⁡ y ∈ D f ( x , y ) , x ∈ C g(\mathbf{x})=\min _{\mathbf{y} \in D} f(\mathbf{x}, \mathbf{y}), \quad \mathbf{x} \in C g(x)=yDminf(x,y),xC
并且假设 g g g有下界
g g g是定义在 C C C上的凸函数

证明:
x 1 , x 2 ∈ C , λ ∈ [ 0 , 1 ] \mathbf{x}_1,\mathbf{x}_2\in C,\lambda \in \left[0,1\right] x1,x2C,λ[0,1]
对于 ϵ > 0 \epsilon>0 ϵ>0
那么存在 y 1 , y 2 ∈ D \mathbf{y}_1,\mathbf{y}_2\in D y1,y2D,使得
f ( x 1 , y 1 ) ≤ g ( x 1 ) + ε f ( x 2 , y 2 ) ≤ g ( x 2 ) + ε \begin{aligned} &f\left(\mathbf{x}_{1}, \mathbf{y}_{1}\right) \leq g\left(\mathbf{x}_{1}\right)+\varepsilon \\ &f\left(\mathbf{x}_{2}, \mathbf{y}_{2}\right) \leq g\left(\mathbf{x}_{2}\right)+\varepsilon \end{aligned} f(x1,y1)g(x1)+εf(x2,y2)g(x2)+ε
因为 f f f是凸函数
f ( λ x 1 + ( 1 − λ ) x 2 , λ y 1 + ( 1 − λ ) y 2 ) ≤ λ f ( x 1 , y 1 ) + ( 1 − λ ) f ( x 2 , y 2 ) ≤ λ ( g ( x 1 ) + ε ) + ( 1 − λ ) ( g ( x 2 ) + ε ) = λ g ( x 1 ) + ( 1 − λ ) g ( x 2 ) + ε \begin{aligned} f\left(\lambda \mathbf{x}_{1}+(1-\lambda) \mathbf{x}_{2}, \lambda \mathbf{y}_{1}+(1-\lambda) \mathbf{y}_{2}\right) & \leq \lambda f\left(\mathbf{x}_{1}, \mathbf{y}_{1}\right)+(1-\lambda) f\left(\mathbf{x}_{2}, \mathbf{y}_{2}\right) \\ &\leq \lambda\left(g\left(\mathbf{x}_{1}\right)+\varepsilon\right)+(1-\lambda)\left(g\left(\mathbf{x}_{2}\right)+\varepsilon\right) \\ &=\lambda g\left(\mathbf{x}_{1}\right)+(1-\lambda) g\left(\mathbf{x}_{2}\right)+\varepsilon \end{aligned} f(λx1+(1λ)x2,λy1+(1λ)y2)λf(x1,y1)+(1λ)f(x2,y2)λ(g(x1)+ε)+(1λ)(g(x2)+ε)=λg(x1)+(1λ)g(x2)+ε
于是
g ( λ x 1 + ( 1 − λ ) x 2 ) ≤ λ g ( x 1 ) + ( 1 − λ ) g ( x 2 ) + ε g\left(\lambda \mathbf{x}_{1}+(1-\lambda) \mathbf{x}_{2}\right) \leq \lambda g\left(\mathbf{x}_{1}\right)+(1-\lambda) g\left(\mathbf{x}_{2}\right)+\varepsilon g(λx1+(1λ)x2)λg(x1)+(1λ)g(x2)+ε
因为 ϵ \epsilon ϵ有任意性,所以 g g g是凸函数

下水平集

定义

f : S → R f:S\to \mathbb{R} f:SR是定义在 S ⊆ R n S\subseteq \mathbb{R}^n SRn的函数,
f f f的在下水平(level) α \alpha α下水平集(level sets)
Lev ⁡ ( f , α ) = { x ∈ S : f ( x ) ≤ α } \operatorname{Lev}(f, \alpha)=\{\mathbf{x} \in S: f(\mathbf{x}) \leq \alpha\} Lev(f,α)={xS:f(x)α}
显然凸函数的下水平集是凸的

拟凸函数

f : C → R f:C\to \mathbb{R} f:CR是定义在凸集 C ⊆ R n C\subseteq \mathbb{R}^n CRn的函数
如果对于任意 α ∈ R \alpha\in\mathbb{R} αR的水平集 Lev ⁡ ( f , α ) \operatorname{Lev}(f, \alpha) Lev(f,α)是凸的,
那么称 f f f为拟凸函数

扩充实函数

之前的函数的象都是有限的
定义在 R n \mathbb{R}^n Rn,且像为 R ∪ { ∞ } = ( − ∞ , ∞ ] \mathbb{R}\cup \left\{\infty\right\}=\left(-\infty,\infty\right] R{}=(,]的函数称为扩充实函数(extended Real-Valued Functions)

扩充函数的有效域(effective domain)为
dom ⁡ ( f ) = { x ∈ R n : f ( x ) < ∞ } \operatorname{dom}(f)=\left\{\mathbf{x} \in \mathbb{R}^{n}: f(\mathbf{x})<\infty\right\} dom(f)={xRn:f(x)<}

一个扩充实函数 f : R n → R ∪ { ∞ } f:\mathbb{R}^{n}\to \mathbb{R}\cup \left\{\infty\right\} f:RnR{}
如果存在 x 0 ∈ R n \mathbf{x}_0\in\mathbb{R}^n x0Rn,使得 f ( x 0 ) < ∞ f(\mathbf{x}_0)<\infty f(x0)<
f f f称为正常函数

与之前凸函数的定义类似
扩充实函数是凸函数,如果 ∀ x , y ∈ R n , λ ∈ [ 0 , 1 ] \forall \mathbf{x},\mathbf{y}\in\mathbb{R}^n,\lambda\in\left[0,1\right] x,yRn,λ[0,1],有
f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) f(\lambda \mathbf{x}+(1-\lambda) \mathbf{y}) \leq \lambda f(\mathbf{x})+(1-\lambda) f(\mathbf{y}) f(λx+(1λ)y)λf(x)+(1λ)f(y)
其中定义
a + ∞ = ∞ ∀ a ∈ R , a ⋅ ∞ = ∞ ∀ a ∈ R + + 0 ⋅ ∞ = 0 \begin{aligned} a+\infty &=\infty \quad\forall a \in \mathbb{R}, \\ a \cdot \infty &=\infty \quad\forall a \in \mathbb{R}_{++} \\ 0 \cdot \infty &=0 \end{aligned} a+a0=aR,=aR++=0

上方图

定义

f : R n → R ∪ { ∞ } f:\mathbb{R}^{n}\to \mathbb{R}\cup \left\{\infty\right\} f:RnR{}
那么上方图集合(epigraph set) epi ⁡ ( f ) ⊆ R n + 1 \operatorname{epi}(f)\subseteq \mathbb{R}^{n+1} epi(f)Rn+1定义为
epi ⁡ ( f ) = { ( x t ) : f ( x ) ≤ t } \operatorname{epi}(f)=\left\{\left(\begin{array}{cccc} \mathbf{x} \\ t \end{array}\right): f(\mathbf{x}) \leq t\right\} epi(f)={(xt):f(x)t}

凸性

一个扩充实函数是凸函数当且仅当 epi ⁡ ( f ) \operatorname{epi}(f) epi(f)是凸集

证明:
必要性: f f f是凸函数
( x 1 t 1 ) , ( x 2 t 2 ) ∈ epi ⁡ ( f ) , λ ∈ [ 0 , 1 ] \left(\begin{array}{cccc} \mathbf{x}_1 \\ t_1 \end{array}\right),\left(\begin{array}{cccc} \mathbf{x}_2 \\ t_2 \end{array}\right)\in \operatorname{epi}(f),\lambda\in\left[0,1\right] (x1t1),(x2t2)epi(f),λ[0,1]
f ( λ x 1 + ( 1 − λ ) x 2 ) ≤ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) ≤ λ t + ( 1 − λ ) t = t \begin{aligned} f(\lambda \mathbf{x}_1+(1-\lambda)\mathbf{x}_2) &\le \lambda f(\mathbf{x}_1)+(1-\lambda)f(\mathbf{x}_2)\\ &\le \lambda t+(1-\lambda)t\\ &=t \end{aligned} f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2)λt+(1λ)t=t

充分性: epi ⁡ ( f ) \operatorname{epi}(f) epi(f)是凸集
( x 1 f ( x 1 ) ) , ( x 2 f ( x 2 ) ) ∈ epi ⁡ ( f ) , λ ∈ [ 0 , 1 ] \left(\begin{array}{cccc} \mathbf{x}_1 \\ f(\mathbf{x}_1) \end{array}\right),\left(\begin{array}{cccc} \mathbf{x}_2 \\ f(\mathbf{x}_2) \end{array}\right)\in \operatorname{epi}(f),\lambda\in\left[0,1\right] (x1f(x1)),(x2f(x2))epi(f),λ[0,1]
于是
f ( λ x 1 + ( 1 − λ ) x 2 ) ≤ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) f(\lambda \mathbf{x}_1+(1-\lambda)\mathbf{x}_2) \le \lambda f(\mathbf{x}_1)+(1-\lambda)f(\mathbf{x}_2) f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2)

保凸

f i : R n → R ∪ { ∞ } f_i:\mathbb{R}^{n}\to \mathbb{R}\cup \left\{\infty\right\} fi:RnR{}对于任意的 i ∈ I i\in I iI I I I是一个下标的集合)是扩充实函数
那么 f ( x ) = max ⁡ i ∈ I f i ( x ) f(\mathbf{x})=\max _{i \in I} f_{i}(\mathbf{x}) f(x)=iImaxfi(x)
是一个凸的扩充实函数

证明:
其实我们等价于证明 epi ⁡ ( f ) = ⋂ i ∈ I epi ⁡ ( f i ) \operatorname{epi}(f)=\bigcap_{i \in I} \operatorname{epi}\left(f_{i}\right) epi(f)=iIepi(fi)

因为 f i f_i fi是凸函数,所以 epi ⁡ ( f i ) \operatorname{epi}(f_i) epi(fi)是凸集
凸集的交集也是凸集,所以 epi ⁡ ( f ) \operatorname{epi}(f) epi(f)是凸集
所以 f f f是凸函数

凸函数的连续性和微分性

凸函数局部Lipschitz连续

f : C → R f:C\to \mathbb{R} f:CR是定义在 C ⊆ R n C\subseteq \mathbb{R}^n CRn的函数
x 0 ∈ int ⁡ ( C ) \mathbf{x}_{0} \in \operatorname{int}(C) x0int(C),则存在 ϵ > 0 , L > 0 \epsilon>0,L>0 ϵ>0,L>0
使得 B [ x 0 , ϵ ] ⊆ C B\left[\mathbf{x}_0,\epsilon\right]\subseteq C B[x0,ϵ]C,
∣ f ( x ) − f ( x 0 ) ∣ ≤ L ∥ x − x 0 ∥ , x ∈ B [ x 0 , ϵ ] \left|f(\mathbf{x})-f\left(\mathbf{x}_{0}\right)\right| \leq L\left\|\mathbf{x}-\mathbf{x}_{0}\right\|,\quad \mathbf{x}\in B\left[\mathbf{x}_0,\epsilon\right] f(x)f(x0)Lxx0,xB[x0,ϵ]

证明:
因为 x 0 ∈ int ⁡ ( C ) \mathbf{x}_0\in \operatorname{int}(C) x0int(C)
所以存在 ϵ > 0 \epsilon>0 ϵ>0使得
B ∞ [ x 0 , ϵ ] ≡ { x ∈ R n : ∥ x − x 0 ∥ ∞ ≤ ε } ⊆ C B_{\infty}\left[\mathbf{x}_{0}, \epsilon\right] \equiv\left\{\mathbf{x} \in \mathbb{R}^{n}:\left\|\mathbf{x}-\mathbf{x}_{0}\right\|_{\infty} \leq \varepsilon\right\} \subseteq C B[x0,ϵ]{xRn:xx0ε}C
v 1 , v 2 , ⋯   , v 2 n \mathbf{v}_{1}, \mathbf{v}_{2}, \cdots, \mathbf{v}_{2^{n}} v1,v2,,v2n B ∞ [ x 0 , ϵ ] B_{\infty}\left[\mathbf{x}_{0}, \epsilon\right] B[x0,ϵ] 2 n 2^n 2n个极点
v i = x 0 + ε w i \mathbf{v}_{i}=\mathbf{x}_{0}+\varepsilon \mathbf{w}_{i} vi=x0+εwi
其中 w 1 , ⋯   , w 2 n ∈ { − 1 , 1 } n \mathbf{w}_{1}, \cdots, \mathbf{w}_{2^{n}}\in\left\{-1,1\right\}^{n} w1,,w2n{1,1}n
所以根据Krein-Milman定理,
∀ x ∈ B ∞ [ x 0 , ϵ ] , ∃ λ ∈ Δ 2 n \forall \mathbf{x} \in B_{\infty}\left[\mathbf{x}_{0}, \epsilon\right],\exists\lambda\in\Delta_{2^n} xB[x0,ϵ],λΔ2n,使得 x = ∑ i = 1 2 n λ i v i \mathbf{x}=\sum_{i=1}^{2^{n}} \lambda_{i} \mathbf{v}_{i} x=i=12nλivi
根据Jensen不等式
f ( x ) = f ( ∑ i = 1 2 n λ i v i ) ≤ ∑ i = 1 2 n λ i f ( v i ) ≤ M f(\mathbf{x})=f\left(\sum_{i=1}^{2^{n}} \lambda_{i} \mathbf{v}_{i}\right) \leq \sum_{i=1}^{2^{n}} \lambda_{i} f\left(\mathbf{v}_{i}\right) \leq M f(x)=f(i=12nλivi)i=12nλif(vi)M
其中 M = max ⁡ i = 1 , 2 , … , 2 n f ( v i ) M=\max \limits_{i=1,2, \ldots, 2^{n}} f\left(\mathbf{v}_{i}\right) M=i=1,2,,2nmaxf(vi)
因为 ∥ x ∥ ∞ ≤ ∥ x ∥ 2 \|\mathbf{x}\|_{\infty}\le \|\mathbf{x}\|_2 xx2,所以
B 2 [ x 0 , ϵ ] = B [ x 0 , ϵ ] = { x ∈ R n : ∥ x − x 0 ∥ 2 ≤ ϵ } ⊆ B ∞ [ x 0 , ϵ ] B_{2}\left[\mathbf{x}_{0}, \epsilon\right]=B\left[\mathbf{x}_{0}, \epsilon\right]=\left\{\mathbf{x} \in \mathbb{R}^{n}:\left\|\mathbf{x}-\mathbf{x}_{0}\right\|_{2} \leq \epsilon\right\} \subseteq B_{\infty}\left[\mathbf{x}_{0}, \epsilon\right] B2[x0,ϵ]=B[x0,ϵ]={xRn:xx02ϵ}B[x0,ϵ]
所以 ∀ x ∈ B [ x 0 , ϵ ] , f ( x ) ≤ M \forall \mathbf{x}\in B\left[\mathbf{x}_{0}, \epsilon\right],f(\mathbf{x})\le M xB[x0,ϵ],f(x)M
如果 x = x 0 \mathbf{x}=\mathbf{x}_0 x=x0,则显然成立
不妨设 x 0 ≠ x ∈ B [ x 0 , ϵ ] \mathbf{x}_0\neq \mathbf{x}\in B\left[\mathbf{x}_{0}, \epsilon\right] x0=xB[x0,ϵ]

z = x 0 + 1 α ( x − x 0 ) \mathbf{z}=\mathbf{x}_{0}+\frac{1}{\alpha}\left(\mathbf{x}-\mathbf{x}_{0}\right) z=x0+α1(xx0)
根据Jensen不等式
f ( x ) ≤ α f ( z ) + ( 1 − α ) f ( x 0 ) ≤ f ( x 0 ) + α ( M − f ( x 0 ) ) = f ( x 0 ) + M − f ( x 0 ) ϵ ∥ x − x 0 ∥ \begin{aligned} f(\mathbf{x}) & \leq \alpha f(\mathbf{z})+(1-\alpha) f\left(\mathbf{x}_{0}\right) \\ & \leq f\left(\mathbf{x}_{0}\right)+\alpha\left(M-f\left(\mathbf{x}_{0}\right)\right) \\ &=f\left(\mathbf{x}_{0}\right)+\frac{M-f\left(\mathbf{x}_{0}\right)}{\epsilon}\left\|\mathbf{x}-\mathbf{x}_{0}\right\| \end{aligned} f(x)αf(z)+(1α)f(x0)f(x0)+α(Mf(x0))=f(x0)+ϵMf(x0)xx0
L = M − f ( x 0 ) ϵ L=\frac{M-f\left(\mathbf{x}_{0}\right)}{\epsilon} L=ϵMf(x0)
f ( x ) − f ( x 0 ) ≤ L ∥ x − x 0 ∥ f(\mathbf{x})-f\left(\mathbf{x}_{0}\right) \leq L\left\|\mathbf{x}-\mathbf{x}_{0}\right\| f(x)f(x0)Lxx0
这就证明一半了

u = x 0 + 1 α ( x 0 − x ) \mathbf{u}=\mathbf{x}_{0}+\frac{1}{\alpha}\left(\mathbf{x}_{0}-\mathbf{x}\right) u=x0+α1(x0x)
∥ u − x 0 ∥ = ϵ ⇒ u ∈ B [ x 0 , ϵ ] ⇒ f ( u ) ≤ M \left\|\mathbf{u}-\mathbf{x}_{0}\right\|=\epsilon\Rightarrow \mathbf{u}\in B\left[\mathbf{x}_{0}, \epsilon\right]\Rightarrow f(\mathbf{u})\le M ux0=ϵuB[x0,ϵ]f(u)M
因为 x 0 = 1 1 + α ( x 0 + α ( x 0 − u ) ) + α 1 + α u \mathbf{x}_{0}=\frac{1}{1+\alpha}\left(\mathbf{x}_{0}+\alpha\left(\mathbf{x}_{0}-\mathbf{u}\right)\right)+\frac{\alpha}{1+\alpha} \mathbf{u} x0=1+α1(x0+α(x0u))+1+ααu
根据Jensen不等式
f ( x 0 ) ≤ 1 1 + α f ( x 0 + α ( x 0 − u ) ) + α 1 + α f ( u ) f\left(\mathbf{x}_{0}\right) \leq \frac{1}{1+\alpha} f\left(\mathbf{x}_{0}+\alpha\left(\mathbf{x}_{0}-\mathbf{u}\right)\right)+\frac{\alpha}{1+\alpha} f(\mathbf{u}) f(x0)1+α1f(x0+α(x0u))+1+ααf(u)
于是
f ( x ) = f ( x 0 + α ( x 0 − u ) ) ≥ f ( x 0 ) + α ( f ( x 0 ) − f ( u ) ) f(\mathbf{x})=f\left(\mathbf{x}_{0}+\alpha\left(\mathbf{x}_{0}-\mathbf{u}\right)\right) \geq f\left(\mathbf{x}_{0}\right)+\alpha\left(f\left(\mathbf{x}_{0}\right)-f(\mathbf{u})\right) f(x)=f(x0+α(x0u))f(x0)+α(f(x0)f(u))
所以
f ( x ) ≥ f ( x 0 ) + α ( f ( x 0 ) − f ( u ) ) ≥ f ( x 0 ) − α ( M − f ( x 0 ) ) = f ( x 0 ) − M − f ( x 0 ) ϵ ∥ x − x 0 ∥ = f ( x 0 ) − L ∥ x − x 0 ∥ , \begin{aligned} f(\mathbf{x}) & \geq f\left(\mathbf{x}_{0}\right)+\alpha\left(f\left(\mathbf{x}_{0}\right)-f(\mathbf{u})\right) \\ & \geq f\left(\mathbf{x}_{0}\right)-\alpha\left(M-f\left(\mathbf{x}_{0}\right)\right) \\ &=f\left(\mathbf{x}_{0}\right)-\frac{M-f\left(\mathbf{x}_{0}\right)}{\epsilon}\left\|\mathbf{x}-\mathbf{x}_{0}\right\| \\ &=f\left(\mathbf{x}_{0}\right)-L\left\|\mathbf{x}-\mathbf{x}_{0}\right\|, \end{aligned} f(x)f(x0)+α(f(x0)f(u))f(x0)α(Mf(x0))=f(x0)ϵMf(x0)xx0=f(x0)Lxx0,

方向导数

f : C → R f:C\to \mathbb{R} f:CR是一个定义在凸集 C ⊆ R n C\subseteq \mathbb{R}^n CRn的凸函数
x ∈ int ⁡ ( C ) \mathbf{x}\in \operatorname{int}(C) xint(C)
对于任意的 d ≠ 0 \mathbf{d}\neq 0 d=0,方向导数 f ′ ( x ; d ) f'(\mathbf{x};\mathbf{d}) f(x;d)存在

证明:
x ∈ int ⁡ ( C ) , d ≠ 0 \mathbf{x}\in \operatorname{int}(C),\mathbf{d}\neq 0 xint(C),d=0
我们的目标是证明
lim ⁡ t → 0 + g ( t ) − g ( 0 ) t \lim _{t \rightarrow 0^{+}} \frac{g(t)-g(0)}{t} t0+limtg(t)g(0)
的存在其中 g ( t ) = f ( x + t d ) g(t)=f(\mathbf{x}+t \mathbf{d}) g(t)=f(x+td)
h ( t ) ≡ g ( t ) − g ( 0 ) t h(t) \equiv \frac{g(t)-g(0)}{t} h(t)tg(t)g(0)
所以等价于证明
lim ⁡ t → 0 + h ( t ) \lim\limits_{t\to 0^{+}}h(t) t0+limh(t)
的存在

ϵ > 0 \epsilon>0 ϵ>0使得, ∀ t ∈ [ 0 , ϵ ] , x + t d , x − t d ∈ C \forall t\in\left[0,\epsilon\right],\mathbf{x}+t \mathbf{d}, \mathbf{x}-t \mathbf{d} \in C t[0,ϵ],x+td,xtdC
0 < t 1 < t 2 ≤ ϵ 0<t_1<t_2\le \epsilon 0<t1<t2ϵ
x + t 1 d = ( 1 − t 1 t 2 ) x + t 1 t 2 ( x + t 2 d ) \mathbf{x}+t_{1} \mathbf{d}=\left(1-\frac{t_{1}}{t_{2}}\right) \mathbf{x}+\frac{t_{1}}{t_{2}}\left(\mathbf{x}+t_{2} \mathbf{d}\right) x+t1d=(1t2t1)x+t2t1(x+t2d)
根据 f f f的凸性
f ( x + t 1 d ) ≤ ( 1 − t 1 t 2 ) f ( x ) + t 1 t 2 f ( x + t 2 d ) f ( x + t 1 d ) − f ( x ) t 1 ≤ f ( x + t 2 d ) − f ( x ) t 2 h ( t 1 ) ≤ h ( t 2 ) \begin{aligned} f\left(\mathbf{x}+t_{1} \mathbf{d}\right) &\leq\left(1-\frac{t_{1}}{t_{2}}\right) f(\mathbf{x})+\frac{t_{1}}{t_{2}} f\left(\mathbf{x}+t_{2} \mathbf{d}\right)\\ \frac{f\left(\mathbf{x}+t_{1} \mathbf{d}\right)-f(\mathbf{x})}{t_{1}} &\leq \frac{f\left(\mathbf{x}+t_{2} \mathbf{d}\right)-f(\mathbf{x})}{t_{2}}\\ h\left(t_{1}\right) &\leq h\left(t_{2}\right) \end{aligned} f(x+t1d)t1f(x+t1d)f(x)h(t1)(1t2t1)f(x)+t2t1f(x+t2d)t2f(x+t2d)f(x)h(t2)
在趋向0的过程中 h h h单调递减
现在需要证明有下界,就可以根据单调递减有下界,必收敛
0 < t ≤ ϵ 0<t\le \epsilon 0<tϵ
x = ε ε + t ( x + t d ) + t ε + t ( x − ε d ) \mathbf{x}=\frac{\varepsilon}{\varepsilon+t}(\mathbf{x}+t \mathbf{d})+\frac{t}{\varepsilon+t}(\mathbf{x}-\varepsilon \mathbf{d}) x=ε+tε(x+td)+ε+tt(xεd)
根据 f f f的凸性
f ( x ) ≤ ε ε + t f ( x + t d ) + t ε + t f ( x − ε d ) f(\mathbf{x}) \leq \frac{\varepsilon}{\varepsilon+t} f(\mathbf{x}+t \mathbf{d})+\frac{t}{\varepsilon+t} f(\mathbf{x}-\varepsilon \mathbf{d}) f(x)ε+tεf(x+td)+ε+ttf(xεd)
所以
h ( t ) = f ( x + t d ) − f ( x ) t ≥ f ( x ) − f ( x − ε d ) ε h(t)=\frac{f(\mathbf{x}+t \mathbf{d})-f(\mathbf{x})}{t} \geq \frac{f(\mathbf{x})-f(\mathbf{x}-\varepsilon \mathbf{d})}{\varepsilon} h(t)=tf(x+td)f(x)εf(x)f(xεd)
所以收敛
于是方向导数存在

凸函数最大值

定理1

f : C → R f:C\to \mathbb{R} f:CR定义在 C C C上的凸函数, f f f不是常值函数
那么 f f f int ⁡ ( C ) \operatorname{int}(C) int(C)不会取到最大值

证明:
假设 x ∗ ∈ int ⁡ ( C ) \mathbf{x}^{*} \in \operatorname{int}(C) xint(C) f f f C C C上的全局最大值
因为不是常值函数,所以 ∃ y ∈ C , f ( y ) < f ( x ∗ ) \exists \mathbf{y}\in C,f(\mathbf{y})<f(\mathbf{x}^{*}) yC,f(y)<f(x)
因为 x ∗ ∈ int ⁡ ( C ) \mathbf{x}^{*} \in \operatorname{int}(C) xint(C),
所以 ∃ ϵ > 0 , z = x ∗ + ε ( x ∗ − y ) ∈ C \exists \epsilon>0,\mathbf{z}=\mathbf{x}^{*}+\varepsilon\left(\mathbf{x}^{*}-\mathbf{y}\right) \in C ϵ>0,z=x+ε(xy)C
因为 x ∗ = ε ε + 1 y + 1 ε + 1 z \mathbf{x}^{*}=\frac{\varepsilon}{\varepsilon+1} \mathbf{y}+\frac{1}{\varepsilon+1} \mathbf{z} x=ε+1εy+ε+11z
所以
f ( x ∗ ) ≤ ε ε + 1 f ( y ) + 1 ε + 1 f ( z ) f\left(\mathbf{x}^{*}\right) \leq \frac{\varepsilon}{\varepsilon+1} f(\mathbf{y})+\frac{1}{\varepsilon+1} f(\mathbf{z}) f(x)ε+1εf(y)+ε+11f(z)
进而
f ( z ) ≥ ϵ ( f ( x ∗ ) − f ( y ) ) + f ( x ∗ ) > f ( x ∗ ) f(\mathbf{z}) \geq \epsilon\left(f\left(\mathbf{x}^{*}\right)-f(\mathbf{y})\right)+f\left(\mathbf{x}^{*}\right)>f\left(\mathbf{x}^{*}\right) f(z)ϵ(f(x)f(y))+f(x)>f(x)
于是矛盾了,
所以全局最大值不会在内部取到

定理2

f : C → R f:C\to \mathbb{R} f:CR是一个定义在凸的紧集 C ⊆ R n C\subseteq \mathbb{R}^{n} CRn的凸函数,
C C C上至少存在一个极点,这个极点是 f f f C C C上的最大值

证明:
根据Weierstrass定理,紧集上的连续函数一定存在最大最小值
x ∗ \mathbf{x}^{*} x f f f C C C的最大值
如果 x ∗ \mathbf{x}^{*} x C C C上的极点,那结论成立
假设不是,根据Krein-Milman定理
存在 x 1 , x 2 , ⋯   , x k ∈ ext ⁡ ( C ) , λ ∈ Δ k \mathbf{x}_{1}, \mathbf{x}_{2}, \cdots, \mathbf{x}_{k} \in \operatorname{ext}(C),\lambda \in \Delta_{k} x1,x2,,xkext(C),λΔk,使得
x ∗ = ∑ i = 1 k λ i x i \mathbf{x}^{*}=\sum_{i=1}^{k} \lambda_{i} \mathbf{x}_{i} x=i=1kλixi
其中 ∀ i = 1 , 2 , ⋯   , k , λ i > 0 \forall i=1,2,\cdots,k,\lambda_i>0 i=1,2,,k,λi>0
因此,根据 f f f的凸性
f ( x ∗ ) ≤ ∑ i = 1 k λ i f ( x i ) ∑ i = 1 k λ i ( f ( x i ) − f ( x ∗ ) ) ≥ 0 \begin{aligned} f\left(\mathbf{x}^{*}\right) &\leq \sum_{i=1}^{k} \lambda_{i} f\left(\mathbf{x}_{i}\right)\\ \sum_{i=1}^{k} \lambda_{i}\left(f\left(\mathbf{x}_{i}\right)-f\left(\mathbf{x}^{*}\right)\right) &\geq 0 \end{aligned} f(x)i=1kλi(f(xi)f(x))i=1kλif(xi)0
所以 ∀ i = 1 , 2 , ⋯   , k , f ( x i ) ≥ f ( x ∗ ) \forall i=1,2,\cdots,k,f\left(\mathbf{x}_{i}\right)\ge f\left(\mathbf{x}^{*}\right) i=1,2,,k,f(xi)f(x)

又因为 x ∗ \mathbf{x}^{*} x是最大值点
所以 ∀ i = 1 , 2 , ⋯   , k , f ( x i ) ≤ f ( x ∗ ) \forall i=1,2,\cdots,k,f(\mathbf{x}_i)\le f(\mathbf{x}^{*}) i=1,2,,k,f(xi)f(x)
于是 f ( x i ) = f ( x ∗ ) f(\mathbf{x}_i)= f(\mathbf{x}^{*}) f(xi)=f(x)

所以最大值点是一个极点

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 对数几率回归的损失函数是负的对数似然函数,可表示为: $L(\boldsymbol{\beta}) = -\sum_{i=1}^n [y_i\log(p_i) + (1-y_i)\log(1-p_i)]$ 其中,$y_i$为第$i$个样本的真实标签,$p_i$为第$i$个样本属于正例的概率,$\boldsymbol{\beta}$为模型参数向量。 对$L(\boldsymbol{\beta})$求二阶导数,得到: $\dfrac{\partial^2 L(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}^2} = \sum_{i=1}^n p_i(1-p_i)\boldsymbol{x_i}\boldsymbol{x_i}^T$ 由于$p_i$的取值在0到1之间,因此$p_i(1-p_i)$也在0到0.25之间,因此$\dfrac{\partial^2 L(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}^2} \geq 0$,即$L(\boldsymbol{\beta})$是凸函数。 ### 回答2: 对数几率回归(Logistic Regression)是一种常用的分类算法,其目标是通过构建一个逻辑函数,来预测样本属于某个类别的概率。 对数几率回归的逻辑函数是sigmoid函数,表示为: h(z) = 1 / (1 + e^(-z)) 其中,z是线性组合的形式,即: z = θ^T * x 其中,θ是模型参数,x表示输入的特征向量。 对数几率回归的损失函数为负的对数似然函数(Negative Log-Likelihood),表示为: J(θ) = -1/m * ∑[y * log(h(x)) + (1-y) * log(1-h(x))] 其中,m代表样本数量,y是样本的真实标签。 我们可以对对数似然函数求二阶导数,来判断其是否是凸函数。二阶导数矩阵也称为Hessian矩阵。 对于对数似然函数而言,其Hessian矩阵是对称正定的,即非负的特征值矩阵。这是因为Hessian矩阵的对角线元素是对数几率函数概率的乘积项,由于概率取值在(0,1),所以这些乘积项是非负的。而非对角线元素是对数几率函数概率的差值的乘积项,同样也是非负的。 由于Hessian矩阵是对称正定的,根据凸函数的定义,对数似然函数是凸函数。 因此,对数几率回归的对数似然函数是凸函数。这保证了求解最优模型参数的优化问题是一个优化问题,可以通过常见的优化算法(如梯度下降法)来求解最优解。 ### 回答3: 对数几率回归(LR)是一种广泛应用于分类问题的机器学习算法。其基本原理是利用Logistic函数将线性回归模型的输出转化为概率,并通过最大似然估计求解模型参数。 在LR中,假设输入数据为x,权重参数为w,偏置参数为b,则模型输出可以表示为z = wx + b。然后,将z通过Logistic函数进行映射,得到预测概率p = sigmoid(z)。sigmoid函数是一个S形函数,其定义为sigmoid(z) = 1 / (1 + exp(-z))。 对数几率回归的l函数(loss function)是用来衡量模型预测值与真实值之间的差距的函数。常用的l函数是交叉熵损失函数(cross-entropy loss),其定义为L(p, y) = -y * log(p) - (1 - y) * log(1 - p),其中p为模型的预测概率,y为真实标签(取值为0或1)。 对数几率回归的l函数是凸函数。这是因为交叉熵损失函数可以被看作是负对数似然函数,而负对数似然函数的二阶导数为半正定矩阵。根据凸函数的定义,如果一个函数的二阶导数恒大于等于零,那么该函数就是凸函数。因此,对数几率回归的l函数是凸函数凸函数具有许多有益的性质,例如全局最优解和局部最优解是相同的,可以使用梯度下降等优化算法高效地求解。对数几率回归作为凸函数,确保了模型优化的稳定性和可靠性,因此在实际应用中得到了广泛的应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Nightmare004

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值