抄书——最优化的理论与方法(5)——数学基础(凸集和凸函数)

以下内容主要抄自抄袁亚湘的《最优化理论与方法》的 1.3 凸集和凸函数


凸性(Convexity)在优化化理论和方法的研究中起着重要作用。

1.3.1 凸集

定义 1.3.1
设集合 S ⊂ R n S\subset R^n SRn,如果对于任意 x 1 , x 2 ∈ S x_1,x_2\in S x1,x2S,有
α x 1 + ( 1 − α ) x 2 ∈ S , ∀ α ∈ [ 0 , 1 ] ( 1.3.1 ) \alpha x_1+(1-\alpha)x_2\in S,\quad \forall \alpha\in [0,1]\qquad(1.3.1) αx1+(1α)x2S,α[0,1](1.3.1)
则称 S S S凸集
这个定义表明,如果 x 1 , x 2 ∈ S x_1,x_2\in S x1,x2S,则连接 x 1 x_1 x1 x 2 x_2 x2 的线段属于 S S S
在这里插入图片描述
图1 凸集与非凸集(左边是凸集,右边是非凸集)
归纳地可以证明, R n R^n Rn 的子集 S S S 为凸集当且仅当对任意 x 1 , x 2 , ⋯   , x m ∈ S x_1,x_2,\cdots,x_m \in S x1,x2,,xmS,有
∑ i = 1 m α i x i ∈ S , ( 1.3.2 ) with  ∑ i = 1 m α i = 1 , α i ≥ 0 , i = 1 , ⋯   , m \sum_{i=1}^m \alpha_i x_i \in S,\qquad(1.3.2)\\ \text{with }\sum_{i=1}^m \alpha_i=1,\quad \alpha_i\ge 0, i=1,\cdots,m i=1mαixiS,(1.3.2)with i=1mαi=1,αi0,i=1,,m
(1.3.1)中的 x = α x 1 + ( 1 − α ) x 2 x=\alpha x_1+(1-\alpha)x_2 x=αx1+(1α)x2 称为 x 1 x_1 x1 x 2 x_2 x2凸组合,(1.3.2)中的 x = ∑ α i x i x=\sum\alpha_i x_i x=αixi 称为 x 1 , ⋯   , x n x_1,\cdots,x_n x1,,xn凸组合
例 1.3.2
超平面 H = { x ∣   p T x = α , α ∈ R } H=\{ x\vert\ p^Tx=\alpha,\alpha\in R\} H={x pTx=α,αR} 是凸集,其中 p ∈ R n p\in R^n pRn 是非零向量,称为超平面的法向量 α \alpha α 为实数。
例 1.3.3
闭半空间 H − = { x ∣   p T x ≤ β } H^-=\{x \vert \ p^Tx\le \beta\} H={x pTxβ} H + = { x ∣   p T x ≥ β } H^+=\{x \vert \ p^Tx\ge \beta\} H+={x pTxβ} 为凸集。开半空间 H ˚ − = { x ∣   p T x &lt; β } \mathring H^-=\{x \vert \ p^Tx\lt \beta\} H˚={x pTx<β} H ˚ + = { x ∣   p T x &gt; β } \mathring H^+=\{x \vert \ p^Tx\gt \beta\} H˚+={x pTx>β} 为凸集。
例 1.3.4
射线 S = { x ∣   x 0 + λ d ,   λ ≥ 0 } S=\{x\vert\ x_0+\lambda d,\ \lambda\ge 0\} S={x x0+λd, λ0} 为凸集,其中, d d d 是给定的任意非零向量, x 0 x_0 x0 是定点。


对于任意 x 1 , x 2 ∈ S x_1,x_2 \in S x1,x2S 和每个数 λ ∈ [ 0 , 1 ] \lambda\in[0,1] λ[0,1],有
x 1 = x 0 + λ 1 d , x 2 = x 0 + λ 2 d , λ 1 , λ 2 ∈ [ 0 , 1 ] x_1=x_0+\lambda_1 d,\quad x_2=x_0+\lambda_2 d,\quad \lambda_1,\lambda_2\in [0,1] x1=x0+λ1d,x2=x0+λ2d,λ1,λ2[0,1]
因而,
λ x 1 + ( 1 − λ ) x 2 = x 0 + [ λ λ 1 + ( 1 − λ ) λ 2 ] d λ λ 1 + ( 1 − λ ) λ 2 ≥ 0 \lambda x_1 + (1-\lambda)x_2=x_0+[\lambda\lambda_1+(1-\lambda)\lambda_2]d\\ \lambda\lambda_1+(1-\lambda)\lambda_2\ge 0 λx1+(1λ)x2=x0+[λλ1+(1λ)λ2]dλλ1+(1λ)λ20
故, λ x 1 + ( 1 − λ ) x 2 ∈ S \lambda x_1 + (1-\lambda)x_2 \in S λx1+(1λ)x2S.


此外,若 A A A m × n m\times n m×n 矩阵, b ∈ R n b\in R^n bRn,则集合
S = { x ∈ R n ∣ A x = b } S=\{x\in R^n \vert Ax=b\} S={xRnAx=b}
是凸集。
由有限个半闭空间的交组成的集合 S S S多面集,表达为
S = { x ∣ p i T x ≤ β i ,   i = 1 , ⋯ &ThinSpace; , m } S=\{x\vert p_i^T x\le \beta_i,\ i=1,\cdots,m\} S={xpiTxβi, i=1,,m}
其中 p i p_i pi 是非零向量, β i \beta_i βi 是实数。多面集是闭凸集。由于等式可以用两个不等式表示,所以下面的集合都是多面集的例子:
S = { x ∣ A x = b ,   x ≥ 0 } , S = { x ∣ A x ≥ 0 ,   x ≥ 0 } . S=\{x\vert A x=b,\ x\ge 0\},\\ S=\{x\vert A x\ge 0,\ x\ge 0\}. S={xAx=b, x0},S={xAx0, x0}.
下面的引理叙述了凸集的性质,即两个凸集的交集是凸集,两个凸集的代数和是凸集
引理 1.3.5
S 1 S_1 S1 S 2 S_2 S2 R n R^n Rn 中的凸集,则
1) S 1 ∩ S 2 S_1\cap S_2 S1S2 是凸集;
2) S 1 ± S 2 = { x 1 ± x 2 ∣   x 1 ∈ S 1 , x 2 ∈ S 2 } S_1 \pm S_2=\{ x_1\pm x_2 \vert\ x_1\in S_1, x_2 \in S_2\} S1±S2={x1±x2 x1S1,x2S2}
从这个引理可知,线性规划和二次规划中的可行域是凸集,因为它是超平面和半空间的交集

S ⊂ R n S\subset R^n SRn,包含子集 S S S 的所有凸集的交叫 S S S凸包,记作 c o n v ( S ) {conv}(S) conv(S),它是包含 S S S 的唯一的最小的凸集。凸包 c o n v ( S ) {conv}(S) conv(S) S S S 中元素的所有凸组合组成,
c o n v ( S ) = { x ∣ x = ∑ i = 1 m α i x i ,   x i ∈ S ,   ∑ i = 1 m α i = 1 ,   α i ≥ 0 , i = 1 , ⋯ &ThinSpace; , m } ( 1.3.3 ) {conv}(S)=\left \{ x \left\vert x=\sum_{i=1}^m \alpha_i x_i,\ x_i\in S,\ \sum_{i=1}^m \alpha_i = 1,\ \alpha_i\ge 0, i=1,\cdots,m\right. \right\}\qquad(1.3.3) conv(S)={xx=i=1mαixi, xiS, i=1mαi=1, αi0,i=1,,m}(1.3.3)


R n R^n Rn 的子集叫,如果它关于正的数乘运算是封闭的,即当 x ∈ K ,   λ &gt; 0 x\in K,\ \lambda\gt 0 xK, λ>0 时, λ x ∈ K \lambda x \in K λxK。如果锥 K 也是凸集,则称之为凸锥。例如:
{ x = ( ξ 1 , ⋯ &ThinSpace; , ξ n )   ∣   ξ 1 ≥ 0 , ⋯ &ThinSpace; , ξ n ≥ 0 } , { x = ( ξ 1 , ⋯ &ThinSpace; , ξ n )   ∣   ξ 1 &gt; 0 , ⋯ &ThinSpace; , ξ n &gt; 0 } , \{ x=(\xi_1,\cdots,\xi_n)\ \vert \ \xi_1\ge 0,\cdots,\xi_n \ge 0\},\\ \{ x=(\xi_1,\cdots,\xi_n)\ \vert \ \xi_1\gt 0,\cdots,\xi_n \gt 0\}, {x=(ξ1,,ξn)  ξ10,,ξn0},{x=(ξ1,,ξn)  ξ1>0,,ξn>0},

{ x ∈ R n   ∣   x T b i ≤ 0 , i ∈ I } \{ x\in R^n \ \vert \ x^Tb_i\le 0, i\in I\} {xRn  xTbi0,iI}
均是凸锥,在上式中, b i ∈ R n b_i\in R^n biRn I I I 是一个任意指标集。
R n R^n Rn 的一个子集是凸锥当且仅当它关于加法和正的数乘运算是封闭的。包含凸集 C C C最小凸锥是
K = { λ x   ∣   λ &gt; 0 , x ∈ C } K=\{\lambda x\ \vert\ \lambda \gt 0, x\in C\} K={λx  λ>0,xC}


下面叙述开集、闭集、开凸集和闭凸集。
x ∈ R n x\in R^n xRn,开球 B ( x , r ) B(x,r) B(x,r) 定义为:
B ( x , r ) = { y ∈ R n   ∣   ∥ y − x ∥ &lt; r } B(x,r) = \{y\in R^n \ \vert \ \Vert y-x \Vert \lt r \} B(x,r)={yRn  yx<r}
这是一个以 x x x 为中心,以 r r r 为半径的开球
S ⊂ R n S\subset R^n SRn,如果存在 r &gt; 0 r\gt 0 r>0,使得 B ( x , r ) ⊂ S B(x,r)\subset S B(x,r)S,则称 x ∈ R n x\in R^n xRn S S S内点 S S S 的所有内点的集合叫 S S S 的内部,用 i n t ( S ) {int}(S) int(S) 表示。显然, i n t ( S ) ⊂ S int(S)\subset S int(S)S
如果子集 S S S 的每一点都是 S S S 的内点,即 i n t ( S ) = S int(S)=S int(S)=S,则 S S S 称为开子集。特别,空集 ∅ \varnothing n n n维空间 R n R^n Rn(全集) 是 R n R^n Rn 的开子集。它们既是开集,又是闭集。
S ⊂ R n S\subset R^n SRn,如果
S ∩ B ( x , r ) ≠ ∅ ,   ∀ r &gt; 0 S\cap B(x,r) \neq \varnothing, \ \forall r\gt 0 SB(x,r)̸=, r>0
x x x 称为属于S的闭包,即 x ∈ S ‾ x\in \overline S xS。显然, S ⊂ S ‾ S\subset \overline S SS
如果 S = S ‾ S=\overline S S=S,则 S S S 称为闭子集。空集 ∅ \varnothing n n n维空间 R n R^n Rn(全集) 是 R n R^n Rn 的闭子集。直观地说,如果一个子集包含它所有的边界点,则它是闭的。例如:闭球 B ‾ ( x , r ) = { y ∈ R n ∣   ∥ y − x ∥ ≤ r } \overline B(x,r)=\{y\in R^n \vert \ \Vert y-x\Vert\le r\} B(x,r)={yRn yxr} 是闭集。
显然,一个子集是闭的,当且仅当它的补是开的
根据上述定义,闭包 S ‾ \overline S S 可以写为:
S ‾ = { x ∈ R n   ∣   lim ⁡ k ∥ x k − x ∥ = 0 ,   x k ∈ S } \overline S = \{ x\in R^n \ \vert \ \lim_{k} \Vert x_k-x\Vert=0,\ x_k\in S\} S={xRn  klimxkx=0, xkS}


什么意思呢?即闭包 S ‾ \overline S S 集合中的点 x x x 与集合 S S S 的距离为零。


S ⊂ R n S\subset R^n SRn 是凸集,若它是开的,则称为开凸集;若它是闭的,则称为闭凸集。

定理 1.3.6
如果 C ⊂ R n C\subset R^n CRn 是凸集,那么 C C C 的闭包 C ‾ \overline C C 也是凸集。


在凸集的研究中另一个有用的概念为凸集的极值点极值方向
定义 1.3.7
S ⊂ R n S\subset R^n SRn 是非空凸集, x ∈ S x\in S xS,若 x x x 不在 S S S 中任何线段的内部,即,若假设 x = θ x 1 + ( 1 − θ ) x 2 ,  and  x 1 , x 2 ∈ S , θ ∈ ( 0 , 1 ) x=\theta x_1+(1-\theta)x_2,\text{ and }x_1,x_2\in S,\theta \in (0,1) x=θx1+(1θ)x2, and x1,x2S,θ(0,1) 必推出 x = x 1 = x 2 x=x_1=x_2 x=x1=x2,则称 x x x 是凸集 S S S 的极值点。
显然,多边形的顶点和圆周上的任意点都是极值点。

定义 1.3.8
S ⊂ R n S\subset R^n SRn 是闭凸集, d d d 为非零向量,如果对每一个 x ∈ S , x + λ d ∈ S , ∀ λ ≥ 0 x\in S,x+\lambda d\in S,\forall \lambda\ge 0 xS,x+λdS,λ0则称向量 d d d S S S 的方向。又设 d 1 d_1 d1 d 2 d_2 d2 S S S 的两个不同方向。如果 S S S 的方向 d d d 不能表示成该集合的两个不同方向的正的线性组合,即如果 d = λ 1 d 1 + λ 2 d 2 ,   λ 1 , λ 2 &gt; 0 d=\lambda_1 d_1+\lambda_2 d_2,\ \lambda_1,\lambda_2 \gt 0 d=λ1d1+λ2d2, λ1,λ2>0,必可推出 d 1 = α d 2 d_1=\alpha d_2 d1=αd2,则称 d d d S S S极值方向
如下图:
在这里插入图片描述
图2 极值方向

考虑多面集
S = { x ∣   A x = b , x ≥ 0 } S=\{x\vert \ Ax=b,x\ge 0\} S={x Ax=b,x0}
其中 A A A m × n m\times n m×n 矩阵, r a n k ( A ) = m , b ∈ R m {rank}(A)=m,b\in R^m rank(A)=m,bRm。不失一般性,设 A = [ B , N ] A=[B,N] A=[B,N],其中 B B B m × m m\times m m×m 非奇异矩阵, N N N m × ( n − m ) m\times(n-m) m×(nm) 矩阵。设 x B , x N x_B,x_N xB,xN 分别是对应于 B B B N N N 的向量,
A x = [ B    N ] [ x B x N ] = B x B + N x N = b Ax=[B \ \ N]\left[ \begin{array} {c} x_B \\ x_N\end{array} \right]= Bx_B + Nx_N=b Ax=[B  N][xBxN]=BxB+NxN=b
于是, x x x 是多面集 S S S极值点的充分必要条件
x = [ x B x N ] = [ B − 1 b 0 ] x=\left[ \begin{array} {c} x_B \\ x_N\end{array} \right]=\left[ \begin{array} {c} B^{-1}b \\ 0\end{array} \right] x=[xBxN]=[B1b0]
其中, B − 1 b ≥ 0 B^{-1}b \ge 0 B1b0
d ≠ 0 d\neq0 d̸=0 S S S 的一个方向,当且仅当 A d = 0 , d ≥ 0 Ad=0,d\ge0 Ad=0,d0 d ‾ \overline d d S S S 的一个极值方向,当且仅当
B − 1 a j ≤ 0 ,  对某个  a j  是 N 的列, d ‾ = α d = α ( B − 1 a j e j ) B^{-1}a_j\le 0,\text{ 对某个 $a_j$ 是 N 的列,}\\ \text{} \\ \overline d=\alpha d=\alpha \left( \begin{array}{c} B^{-1}a_j \\ e_j \end{array}\right) B1aj0, 对某个 aj  N 的列,d=αd=α(B1ajej)
其中 α &gt; 0 , e j ∈ R n − m \alpha \gt 0, e_j \in R^{n-m} α>0,ejRnm 是单位向量。


1.3.2 凸函数

定义 1.3.9
S ⊂ R n S\subset R^n SRn 是非空凸集, α ∈ ( 0 , 1 ) \alpha \in (0,1) α(0,1) f f f 是定义在 S S S 上的函数。如果对任意 x 1 , x 2 ∈ S x_1,x_2\in S x1,x2S,有
f ( α x 1 + ( 1 − α ) x 2 ) ≤ α f ( x 1 ) + ( 1 − α ) f ( x 2 ) ( 1.3.4 ) f(\alpha x_1+(1-\alpha)x_2)\le \alpha f(x_1)+(1-\alpha) f(x_2) \qquad(1.3.4) f(αx1+(1α)x2)αf(x1)+(1α)f(x2)(1.3.4)
则称函数 f f f S S S 上的凸函数。如果当 x 1 ≠ x 2 x_1\neq x_2 x1̸=x2 时(1.3.4)中严格不等式成立,
f ( α x 1 + ( 1 − α ) x 2 ) &lt; α f ( x 1 ) + ( 1 − α ) f ( x 2 ) ( 1.3.5 ) f(\alpha x_1+(1-\alpha)x_2)\lt \alpha f(x_1)+(1-\alpha) f(x_2) \qquad(1.3.5) f(αx1+(1α)x2)<αf(x1)+(1α)f(x2)(1.3.5)
则称函数 f f f S S S 上的严格凸函数。如果存在一个常数 c &gt; 0 c\gt 0 c>0,使得对任意 x 1 , x 2 ∈ S x_1,x_2\in S x1,x2S,有
α f ( x 1 ) + ( 1 − α ) f ( x 2 ) ≥ f ( α x 1 + ( 1 − α ) x 2 ) + c α ( 1 − α ) ∥ x 1 − x 2 ∥ 2 ( 1.3.6 ) \alpha f(x_1)+(1-\alpha) f(x_2)\ge f(\alpha x_1+(1-\alpha)x_2)+c\alpha(1-\alpha)\Vert x_1-x_2\Vert^2\qquad(1.3.6) αf(x1)+(1α)f(x2)f(αx1+(1α)x2)+cα(1α)x1x22(1.3.6)
则称 f f f S S S 上是一致凸的
如果 − f -f f S S S 上的凸(严格凸)函数,则称 f f f S S S 上的凹(严格凹)函数
在这里插入图片描述
图3 凸(凹)函数

凸函数有如下性质:
定理 1.3.10
1)设 f f f 是定义在凸集 S S S 上的凸函数,实数 α ≥ 0 \alpha \ge 0 α0,则 α f \alpha f αf 也是定义在 S S S 上的凸函数。
2)设 f 1 , f 2 f_1,f_2 f1,f2 是定义在凸集 S S S 上的凸函数,则 f 1 + f 2 f_1+f_2 f1+f2,也是定义在 S S S 上的凸函数。
3)设 f 1 , f 2 , ⋯ &ThinSpace; , f m f_1,f_2,\cdots,f_m f1,f2,,fm 是定义在凸集 S S S 上的凸函数,实数 α 1 , α 2 , ⋯ &ThinSpace; , α n ≥ 0 \alpha_1,\alpha_2,\cdots,\alpha_n \ge 0 α1,α2,,αn0,则 ∑ i = 1 m α i f i \sum_{i=1}^m \alpha_i f_i i=1mαifi 也是定义在 S S S 上的凸函数。


即对正实数乘和加法是封闭的。


如果凸函数是可微的,我们可以用下面的特征描述凸函数,下面的定理刻画了凸函数的一阶特征。
定理 1.3.11
S ⊂ R n S\subset R^n SRn 是非空开凸集, f f f 是定义在 S S S 上的可微函数,则 f f f 为凸函数的充分必要条件是:
f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) , ∀ x , y ∈ S ( 1.3.7 ) f(y)\ge f(x)+\nabla f(x)^T(y-x),\quad \forall x,y\in S\qquad(1.3.7) f(y)f(x)+f(x)T(yx),x,yS(1.3.7)
在这里插入图片描述
图4 凸函数的一阶特征


证明:
必要性:设 f f f 是凸函数,于是对所有 α ,   0 ≤ α ≤ 1 \alpha,\ 0\le \alpha \le 1 α, 0α1,有
f ( α y + ( 1 − α ) x ) ≤ α f ( y ) + ( 1 − α ) f ( x ) f(\alpha y + (1-\alpha)x) \le \alpha f(y) + (1-\alpha)f(x) f(αy+(1α)x)αf(y)+(1α)f(x)
因此,对于 0 &lt; α ≤ 1 0\lt \alpha \le 1 0<α1
f ( x + α ( y − x ) ) − f ( x ) α ≤ f ( y ) − f ( x ) \frac{f(x+\alpha(y-x))-f(x)}{\alpha}\le f(y)-f(x) αf(x+α(yx))f(x)f(y)f(x)
α → 0 \alpha \to 0 α0,得
∇ f ( x ) T ( y − x ) ≤ f ( y ) − f ( x ) ⇒ f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) \nabla f(x)^T(y-x)\le f(y)-f(x)\\ \text{} \\ \Rightarrow f(y)\ge f(x)+\nabla f(x)^T(y-x) f(x)T(yx)f(y)f(x)f(y)f(x)+f(x)T(yx)
充分性:今设(1.3.7)成立,任取 x 1 , x 2 ∈ S ,   0 ≤ α ≤ 1 x_1,x_2\in S, \ 0\le\alpha\le 1 x1,x2S, 0α1,令 x = α x 1 + ( 1 − α ) x 2 x=\alpha x_1 + (1-\alpha)x_2 x=αx1+(1α)x2,我们有
f ( x 1 ) ≥ f ( x ) + ∇ f ( x ) T ( x 1 − x ) f ( x 2 ) ≥ f ( x ) + ∇ f ( x ) T ( x 2 − x ) f(x_1)\ge f(x) + \nabla f(x)^T(x_1-x)\\ f(x_2)\ge f(x) + \nabla f(x)^T(x_2-x) f(x1)f(x)+f(x)T(x1x)f(x2)f(x)+f(x)T(x2x)
于是得到
α f ( x 1 ) + ( 1 − α ) f ( x 2 ) ≥ f ( x ) + ∇ f ( x ) T [ α x 1 + ( 1 − α ) x 2 − x ] = f ( α x 1 + ( 1 − α ) x 2 ) \alpha f(x_1) + (1-\alpha)f(x_2)\ge f(x)+\nabla f(x)^T[\alpha x_1+(1-\alpha)x_2-x]\\=f(\alpha x_1+(1-\alpha)x_2) αf(x1)+(1α)f(x2)f(x)+f(x)T[αx1+(1α)x2x]=f(αx1+(1α)x2)
(对于一维凸函数,有
lim ⁡ x → α x 1 + ( 1 − α ) x 2 f ( α x 1 + ( 1 − α ) x 2 ) − f ( x ) α x 1 + ( 1 − α ) x 2 − x = f ′ ( α x 1 + ( 1 − α ) x 2 ) \lim_{x\to \alpha x_1+(1-\alpha)x_2}\frac{f(\alpha x_1+(1-\alpha)x_2)-f(x)}{\alpha x_1+(1-\alpha)x_2-x} = f&#x27;(\alpha x_1+(1-\alpha)x_2) xαx1+(1α)x2limαx1+(1α)x2xf(αx1+(1α)x2)f(x)=f(αx1+(1α)x2)
这表明 f ( x ) f(x) f(x) 是凸函数。


凸函数的定义 1.3.9 表示了两点的线性插值大于函数值,即函数图形在弦之下。这个定理表明了根据局部导数的线性近似是函数的低估,即凸函数图形位于图形上任一点切线的上方。这样的切线(面)就称为凸函数的一个支撑超平面

下面,我们对于二次连续可微函数,考虑凸函数的二次特征。
定理 1.3.12
S ∈ R n S\in R^n SRn 是非空开凸集, f f f 是定义在 S S S 上的二次可微函数,则 f f f凸函数充分必要条件是在 S S S 的每一点Hesse 矩阵正半定


f f f x x x 处的 Hesse 矩阵定义为 n × n n\times n n×n 矩阵,其第 i , j i,j i,j 元素为:
[ ∇ 2 f ( x ) ] i j = ∂ 2 f ( x ) ∂ x i ∂ x j , 1 ≤ i , j ≤ n [\nabla^2 f(x)]_{ij}=\frac{\partial^2 f(x)}{\partial x_i \partial x_j},\quad 1\le i,j \le n [2f(x)]ij=xixj2f(x),1i,jn


证明:
1)充分性
设 Hesse 矩阵 ∇ 2 f ( x ) \nabla^2 f(x) 2f(x) 在每一点 x ∈ S x\in S xS 正半定。考虑 x , x ‾ ∈ S x, \overline x\in S x,xS,由中值定理,有
f ( x ) = f ( x ‾ ) + ∇ f ( x ‾ ) T ( x − x ‾ ) + 1 2 ( x − x ‾ ) T ∇ 2 f ( x ^ ) ( x − x ‾ ) f(x) = f(\overline x) + \nabla f(\overline x)^T(x-\overline x)+\frac12(x-\overline x)^T\nabla^2f(\widehat x)(x-\overline x) f(x)=f(x)+f(x)T(xx)+21(xx)T2f(x )(xx)
其中, x ^ = x ‾ + θ ( x − x ‾ ) , θ ∈ ( 0 , 1 ) \widehat x=\overline x+\theta(x-\overline x),\theta \in (0,1) x =x+θ(xx),θ(0,1)。注意到 x ^ ∈ S \widehat x\in S x S,故由假设( ∇ 2 f ( x ) \nabla^2 f(x) 2f(x) 在每一点 x ∈ S x\in S xS 正半定)知:
f ( x ) ≥ f ( x ‾ ) + ∇ f ( x ‾ ) T ( x − x ‾ ) f(x) \ge f(\overline x) + \nabla f(\overline x)^T(x-\overline x) f(x)f(x)+f(x)T(xx)
从而,根据定理 1.3.11 可知 f f f 是凸函数。
2)必要性
f f f 是凸函数,任取 x ‾ ∈ S \overline x\in S xS,我们要证明 p T ∇ 2 f ( x ‾ ) p ≥ 0 , ∀ p ∈ R n p^T\nabla^2f(\overline x)p\ge 0,\forall p\in R^n pT2f(x)p0,pRn,即证明 ∇ 2 f ( x ‾ ) \nabla^2f(\overline x) 2f(x) 正半定。由于 S S S 是开集,必存在 δ &gt; 0 \delta \gt 0 δ>0,使当 ∣ λ ∣ &lt; δ \vert \lambda \vert \lt \delta λ<δ 时, x ‾ + λ p ∈ S \overline x+\lambda p\in S x+λpS。根据定理 1.3.11,有
f ( x ‾ + λ p ) ≥ f ( x ‾ ) + λ ∇ f ( x ‾ ) T p ( 1.3.8 ) f(\overline x +\lambda p)\ge f(\overline x) + \lambda \nabla f(\overline x)^Tp \qquad(1.3.8) f(x+λp)f(x)+λf(x)Tp(1.3.8)
又由于 f ( x ) f(x) f(x) x ‾ \overline x x 处二次可微,则
f ( x ‾ + λ p ) = f ( x ‾ ) + λ ∇ f ( x ‾ ) T p + λ 2 2 p T G ( x ‾ ) p + o ( ∥ λ p ∥ 2 ) ( 1.3.9 ) f(\overline x+\lambda p)=f(\overline x)+\lambda\nabla f(\overline x)^Tp+\frac{\lambda^2}2p^TG(\overline x)p+o(\Vert \lambda p\Vert^2)\qquad(1.3.9) f(x+λp)=f(x)+λf(x)Tp+2λ2pTG(x)p+o(λp2)(1.3.9)
其中 G ( x ‾ ) G(\overline x) G(x) f f f x ‾ \overline x x 处的 Hesse 阵。将 (1.3.9) 代入 (1.3.8) 便得到
1 2 λ 2 p T G ( x ‾ ) p + o ( ∥ λ p ∥ 2 ) ≥ 0 \frac12 \lambda^2p^TG(\overline x)p+o(\Vert \lambda p\Vert^2)\ge 0 21λ2pTG(x)p+o(λp2)0
上式两边除以 λ 2 \lambda^2 λ2,并令 λ → 0 \lambda\to 0 λ0,得
p T G ( x ‾ ) p ≥ 0 p^TG(\overline x)p\ge 0 pTG(x)p0
必要性得证。 □ \square


定理 1.3.13
S ⊂ R n S\subset R^n SRn 为非空开凸集, f f f 是定义在 S S S 上的可微函数,则 f f f严格凸函数的充分必要条件是
f ( y ) &gt; f ( x ) + ∇ f ( x ) T ( y − x ) , ∀ y , x ∈ S , x ≠ y ( 1.3.10 ) f(y)\gt f(x)+\nabla f(x)^T(y-x),\quad \forall y,x\in S, x\neq y\qquad(1.3.10) f(y)>f(x)+f(x)T(yx),y,xS,x̸=y(1.3.10)
定理 1.3.14
S ⊂ R n S\subset R^n SRn 为非空开凸集, f f f 是定义在 S S S 上的二次可微函数,如果在每一点 x ∈ S x\in S xSHesse 阵正定,则 f f f 为严格凸函数,如果 f f f 为严格凸函数,则 Hesse 矩阵在 S S S 的每一点正半定

和凸函数关系密切的是水平集。下面的定理指出水平集是凸集。
定理 1.3.15
S ⊂ R n S\subset R^n SRn 为非空凸集, f f f 是定义在 S S S 上的凸函数, α \alpha α 是一个实数,则水平集 L α = { x ∣   x ∈ S , f ( x ) ≤ α } L_{\alpha}=\{x\vert \ x\in S,f(x)\le \alpha\} Lα={x xS,f(x)α} 是凸集。


证明:
x 1 , x 2 ∈ L α x_1,x_2 \in L_{\alpha} x1,x2Lα,于是 x 1 , x 2 ∈ S , f ( x 1 ) ≤ α , f ( x 2 ) ≤ α x_1,x_2\in S,f(x_1)\le \alpha,f(x_2)\le\alpha x1,x2S,f(x1)α,f(x2)α
今设 λ ∈ ( 0 , 1 ) , x = λ x 1 + ( 1 − λ ) x 2 \lambda\in(0,1),x=\lambda x_1+(1-\lambda)x_2 λ(0,1),x=λx1+(1λ)x2。由 S S S 的凸性知道 x ∈ S x\in S xS,又由于 f f f 是凸函数,故有:
f ( x 1 ) &gt; f ( x ) + ∇ f ( x ) T ( x 1 − λ x 1 − ( 1 − λ ) x 2 ) = f ( x ) + ∇ f ( x ) T ( 1 − λ ) ( x 1 − x 2 ) f ( x 2 ) &gt; f ( x ) + ∇ f ( x ) T ( x 2 − λ x 1 − ( 1 − λ ) x 2 ) = f ( x ) − ∇ f ( x ) T λ ( x 1 − x 2 ) → λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) &gt; f ( x ) → f ( x ) &lt; λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) ≤ λ α + ( 1 − λ ) α = α f(x_1)\gt f(x)+\nabla f(x)^T(x_1-\lambda x_1-(1-\lambda)x_2)\\ =f(x)+\nabla f(x)^T(1-\lambda)(x_1-x_2) \\ f(x_2)\gt f(x)+\nabla f(x)^T(x_2-\lambda x_1-(1-\lambda)x_2)\\ =f(x)-\nabla f(x)^T\lambda(x_1-x_2) \\ \to \lambda f(x_1)+(1-\lambda)f(x_2) \gt f(x) \\ \to f(x) \lt \lambda f(x_1)+(1-\lambda)f(x_2)\le \lambda \alpha + (1-\lambda) \alpha = \alpha f(x1)>f(x)+f(x)T(x1λx1(1λ)x2)=f(x)+f(x)T(1λ)(x1x2)f(x2)>f(x)+f(x)T(x2λx1(1λ)x2)=f(x)f(x)Tλ(x1x2)λf(x1)+(1λ)f(x2)>f(x)f(x)<λf(x1)+(1λ)f(x2)λα+(1λ)α=α
因此, x ∈ L α x\in L_{\alpha} xLα,从而 L α L_{\alpha} Lα 是凸集。 □ \square


进一步,若 f f f S S S 上的连续凸函数,则显然水平集 L α L_{\alpha} Lα 是闭凸集。

定理 1.3.16
f ( x ) f(x) f(x) S ∈ R n S\in R^n SRn 上二次连续可微,且存在常数 m &gt; 0 m\gt 0 m>0,使得:
u T ∇ 2 f ( x ) u ≥ m ∥ u ∥ 2 , ∀ x ∈ L ( x 0 ) , u ∈ R n ( 1.3.11 ) u^T\nabla^2f(x)u\ge m\Vert u\Vert^2,\quad \forall x\in L(x_0), u\in R^n\qquad(1.3.11) uT2f(x)umu2,xL(x0),uRn(1.3.11)
则水平集 L ( x 0 ) = { x ∈ S ∣   f ( x ) ≤ f ( x 0 ) } L(x_0)=\{x\in S\vert \ f(x)\le f(x_0)\} L(x0)={xS f(x)f(x0)}有界闭凸集


证明:
因为:
u T ∇ 2 f ( x ) u ≥ m ∥ u ∥ 2 , ∀ x ∈ L ( x 0 ) , u ∈ R n ( 1.3.11 ) u^T\nabla^2f(x)u\ge m\Vert u\Vert^2,\quad \forall x\in L(x_0), u\in R^n\qquad(1.3.11) uT2f(x)umu2,xL(x0),uRn(1.3.11)
所以, f ( x ) f(x) f(x) 每一点的 Hesse 矩阵正定, f ( x ) f(x) f(x) 为严格凸函数,由定理 1.3.15,可知,水平集 L ( x 0 ) L(x_0) L(x0) 对于任意 x 0 ∈ R n x_0\in R^n x0Rn 是闭凸集。
现在证明 L ( x 0 ) L(x_0) L(x0)有界性
因为水平集 L ( x 0 ) L(x_0) L(x0) 是凸的,由(1.3.11),故 ∀ x , y ∈ L ( x 0 ) \forall x,y\in L(x_0) x,yL(x0)
m ∥ y − x ∥ 2 ≤ ( y − x ) T ∇ 2 f ( x + α ( y − x ) ) ( y − x ) m\Vert y-x \Vert^2 \le (y-x)^T\nabla^2f(x+\alpha(y-x))(y-x) myx2(yx)T2f(x+α(yx))(yx)
又由 Taylor 展开,(此处,我也不甚了了。)
f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + ∫ 0 1 ∫ 0 t ( y − x ) T ∇ 2 f ( x + α ( y − x ) ) ( y − x ) d α d t   ≥ f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 m ∥ y − x ∥ 2 f(y) = f(x) + \nabla f(x)^T(y-x)+\int_0^1\int_0^t(y-x)^T\nabla^2f(x+\alpha(y-x))(y-x)d\alpha dt\\ \text{ } \\ \ge f(x) + \nabla f(x)^T(y-x) + \frac 12 m\Vert y-x\Vert^2 f(y)=f(x)+f(x)T(yx)+010t(yx)T2f(x+α(yx))(yx)dαdt f(x)+f(x)T(yx)+21myx2
其中 m m m x , y x,y x,y 无关,因此对任意 y ∈ L ( x 0 ) , y ≠ x 0 y\in L(x_0),y\neq x_0 yL(x0),y̸=x0
f ( y ) − f ( x 0 ) ≥ ∇ f ( x 0 ) T ( y − x 0 ) + 1 2 m ∥ y − x 0 ∥ 2   ≥ − ∥ ∇ f ( x 0 ) ∥ ⋅ ∥ y − x 0 ∥ + 1 2 m ∥ y − x 0 ∥ 2 f(y)-f(x_0) \ge \nabla f(x_0)^T(y-x_0)+\frac12m\Vert y-x_0\Vert^2 \\ \text{ } \\ \ge-\Vert\nabla f(x_0)\Vert\cdot\Vert y-x_0\Vert+\frac12m\Vert y-x_0\Vert^2 f(y)f(x0)f(x0)T(yx0)+21myx02 f(x0)yx0+21myx02
上式的第二个不等式是因为 Cauchy-Schwarz 不等式: ∣ x T y ∣ ≤ ∥ x ∥ ⋅ ∥ y ∥ \vert x^Ty\vert \le \Vert x\Vert\cdot \Vert y\Vert xTyxy
又由于 f ( y ) ≤ f ( x 0 ) f(y)\le f(x_0) f(y)f(x0),故
∥ y − x 0 ∥ ≤ 2 m ∥ ∇ f ( x 0 ) ∥ \Vert y-x_0 \Vert \le \frac2m\Vert \nabla f(x_0) \Vert yx0m2f(x0)
这表明水平集 L ( x 0 ) = { x ∣ x ∈ S , f ( x ) ≤ f ( x 0 ) } L(x_0)=\{x\vert x\in S,f(x)\le f(x_0)\} L(x0)={xxS,f(x)f(x0)} 有界。 □ \qquad\square

最后,作为函数凸性的一个应用,我们给出 Minkowski 不等式的证明。
Minkowski 不等式
∥ x + y ∥ p ≤ ∥ x ∥ p + ∥ y ∥ p \Vert x+y \Vert_p\le \Vert x\Vert_p+\Vert y\Vert_p x+ypxp+yp

( ∑ i = 1 n ∣ x i + y i ∣ p ) 1 / p ≤ ( ∑ i = 1 n ∣ x i ∣ p ) 1 / p + ( ∑ i = 1 n ∣ y i ∣ p ) 1 / p \left( \sum_{i=1}^n\vert x_i+y_i\vert^p\right)^{1/p}\le \left( \sum_{i=1}^n\vert x_i\vert^p\right)^{1/p}+\left( \sum_{i=1}^n\vert y_i\vert^p\right)^{1/p} (i=1nxi+yip)1/p(i=1nxip)1/p+(i=1nyip)1/p
其中, p ≥ 1 p\ge 1 p1.


证明:
如果 x x x y y y 为零向量,则不等式显然成立。故假定 x ≠ 0 , y ≠ 0 x\neq 0,y\neq 0 x̸=0,y̸=0.
p = 1 p=1 p=1,由于 ∣ x i + y i ∣ ≤ ∣ x i ∣ + ∣ y i ∣ , i = 1 , ⋯ &ThinSpace; , n \vert x_i+y_i\vert\le \vert x_i \vert+\vert y_i\vert, i=1,\cdots,n xi+yixi+yi,i=1,,n.
今设 p &gt; 1 p\gt 1 p>1,考虑函数
ϕ ( t ) = t p , t &gt; 0 ⇒ ϕ ′ ′ ( t ) = p ( p − 1 ) t p − 2 \phi(t)=t^p,\quad t\gt 0\\ \Rightarrow\phi&#x27;&#x27;(t)=p(p-1)t^{p-2} ϕ(t)=tp,t>0ϕ(t)=p(p1)tp2
故函数 ϕ ( t ) \phi(t) ϕ(t) 严格凸。注意到:
∥ x ∥ p ∥ x ∥ p + ∥ y ∥ p + ∥ y ∥ p ∥ x ∥ p + ∥ y ∥ p = 1 \frac{\Vert x\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}+\frac{\Vert y\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}=1 xp+ypxp+xp+ypyp=1
于是,由凸函数定义得到
( ∥ x ∥ p ∥ x ∥ p + ∥ y ∥ p ∣ x i ∣ ∥ x ∥ p + ∥ y ∥ p ∥ x ∥ p + ∥ y ∥ p ∣ y i ∣ ∥ y ∥ p ) p   ≤ ∥ x ∥ p ∥ x ∥ p + ∥ y ∥ p ( ∣ x i ∣ ∥ x ∥ p ) p + ∥ y ∥ p ∥ x ∥ p + ∥ y ∥ p ( ∣ y i ∣ ∥ y ∥ p ) p \left(\frac{\Vert x\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\frac{|x_i|}{\Vert x\Vert_p}+\frac{\Vert y\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\frac{|y_i|}{\Vert y\Vert_p}\right)^p \\ \text{ } \\ \le \frac{\Vert x\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\left( \frac{|x_i|}{\Vert x\Vert_p}\right)^p + \frac{\Vert y\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\left( \frac{|y_i|}{\Vert y\Vert_p}\right)^p (xp+ypxpxpxi+xp+ypypypyi)p xp+ypxp(xpxi)p+xp+ypyp(ypyi)p
因此
∑ i = 1 n ( ∣ x i + y i ∣ ∥ x ∥ p + ∥ y ∥ p ) p ≤ ∑ i = 1 n ( ∣ x i ∣ + ∣ y i ∣ ∥ x ∥ p + ∥ y ∥ p ) p 因 为 p 次 函 数 是 凸 函 数 , 所 以 ≤ ∑ i = 1 n ( ∥ x ∥ p ∥ x ∥ p + ∥ y ∥ p ( ∣ x i ∣ ∥ x ∥ p ) p + ∥ y ∥ p ∥ x ∥ p + ∥ y ∥ p ( ∣ y i ∣ ∥ y ∥ p ) p ) ≤ ∥ x ∥ p ∥ x ∥ p + ∥ y ∥ p ∑ i = 1 n ( ∣ x i ∣ ∥ x ∥ p ) p + ∥ y ∥ p ∥ x ∥ p + ∥ y ∥ p ∑ i = 1 n ( ∣ y i ∣ ∥ y ∥ p ) p = ∥ x ∥ p ∥ x ∥ p + ∥ y ∥ p ⋅ ∥ x ∥ p p ∥ x ∥ p p + ∥ y ∥ p ∥ x ∥ p + ∥ y ∥ p ⋅ ∥ y ∥ p p ∥ y ∥ p p = 1 \sum_{i=1}^n\left(\frac{\vert x_i+y_i\vert}{\Vert x\Vert_p+\Vert y\Vert_p} \right)^p\le \sum_{i=1}^n\left(\frac{\vert x_i\vert+\vert y_i\vert}{\Vert x\Vert_p+\Vert y\Vert_p} \right)^p \\ \color{red}{因为p次函数是凸函数,所以}\color{black}\\ \le \sum_{i=1}^n\left(\frac{\Vert x \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p} \left(\frac{\vert x_i\vert}{\Vert x\Vert_p} \right)^p+\frac{\Vert y \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p} \left(\frac{\vert y_i\vert}{\Vert y\Vert_p} \right)^p\right)\\ \le \frac{\Vert x \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\sum_{i=1}^n \left(\frac{\vert x_i\vert}{\Vert x\Vert_p} \right)^p+\frac{\Vert y \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\sum_{i=1}^n \left(\frac{\vert y_i\vert}{\Vert y\Vert_p} \right)^p \\ = \frac{\Vert x \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\cdot\frac{\Vert x \Vert_p^p}{\Vert x \Vert_p^p}+\frac{\Vert y \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\cdot\frac{\Vert y \Vert_p^p}{\Vert y \Vert_p^p}=1 i=1n(xp+ypxi+yi)pi=1n(xp+ypxi+yi)ppi=1n(xp+ypxp(xpxi)p+xp+ypyp(ypyi)p)xp+ypxpi=1n(xpxi)p+xp+ypypi=1n(ypyi)p=xp+ypxpxppxpp+xp+ypypyppypp=1
这样,
∑ i = 1 n ∣ x i + y i ∣ p ≤ ( ∥ x ∥ p + ∥ y ∥ p ) p \sum^n_{i=1}\vert x_i+y_i\vert^p\le (\Vert x\Vert_p +\Vert y \Vert_p)^p i=1nxi+yip(xp+yp)p
上式两边取p次根即得结果。 □ \qquad \square

  • 1
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值