文章目录
光滑函数和强凸函数
1. F L 1 , 1 ( R n ) \mathfrak{F}_L^{1,1}(\mathbb{R}^n) FL1,1(Rn)类函数
和一般的非线性函数一样,可微性不能保证凸函数的任何特别的拓扑属性。因此,需要考虑Lipschitz连续导数的问题类。考虑凸函数类 F L k , l ( R n ) \mathfrak{F}_{L}^{k,l}(\mathbb{R}^n) FLk,l(Rn),下面主要是属于 F L 1 , 1 ( R n ) \mathfrak{F}_L^{1,1}(\mathbb{R}^n) FL1,1(Rn)类的函数,该类函数具有Lipschitz连续梯度。
定理:如果对于所有的 x , y ∈ R n x,y\in \mathbb{R}^n x,y∈Rn和 a ∈ [ 0 , 1 ] a\in [0,1] a∈[0,1],则下面任一条件等价于包含关系 f ∈ F L 1 , 1 ( R n ) f\in \mathfrak{F}_{L}^{1,1}(\mathbb{R}^n) f∈FL1,1(Rn)
- 0 ≤ f ( y ) − f ( x ) − ⟨ ∇ f ( x ) , y − x ⟩ ≤ L 2 ∥ x − y ∥ 2 0\leq f(y)-f(x)-\langle \nabla f(x),y-x\rangle\leq \frac{L}{2}\|x-y\|^2 0≤f(y)−f(x)−⟨∇f(x),y−x⟩≤2L∥x−y∥2
- f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ + 1 2 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ 2 ≤ f ( y ) f(x)+\langle \nabla f(x), y-x\rangle+\frac{1}{2L}\|\nabla f(x)-\nabla f(y)\|^2\leq f(y) f(x)+⟨∇f(x),y−x⟩+2L1∥∇f(x)−∇f(y)∥2≤f(y)
- 1 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ 2 ≤ ⟨ ∇ f ( x ) − ∇ f ( y ) , x − y ⟩ \frac{1}{L}\|\nabla f(x)-\nabla f(y)\|^2\leq \langle \nabla f(x)-\nabla f(y),x-y\rangle L1∥∇f(x)−∇f(y)∥2≤⟨∇f(x)−∇f(y),x−y⟩
- ⟨ ∇ f ( x ) − ∇ f ( y ) , x − y ⟩ ≤ L ∥ x − y ∥ 2 \langle \nabla f(x)-\nabla f(y),x-y\rangle \leq L \|x-y\|^2 ⟨∇f(x)−∇f(y),x−y⟩≤L∥x−y∥2
- a f ( x ) + ( 1 − a ) f ( y ) ≥ f ( a x + ( 1 − a ) y ) + a ( 1 − a ) 2 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ 2 af(x)+(1-a)f(y)\geq f(ax+(1-a)y)+\frac{a(1-a)}{2L}\|\nabla f(x)-\nabla f(y)\|^2 af(x)+(1−a)f(y)≥f(ax+(1−a)y)+2La(1−a)∥∇f(x)−∇f(y)∥2
- a f ( x ) + ( 1 − a ) f ( y ) ≤ f ( a x + ( 1 − a ) y ) + a ( 1 − a ) L 2 ∥ x − y ∥ 2 af(x)+(1-a)f(y)\leq f(ax+(1-a)y)+a(1-a)\frac{L}{2}\|x-y\|^2 af(x)+(1−a)f(y)≤f(ax+(1−a)y)+a(1−a)2L∥x−y∥2.
证明1:参考凸优化简介4第2部分的推导过程
证明2:设函数 ϕ ( y ) = f ( y ) − ⟨ ∇ f ( x 0 ) , y ⟩ \phi(y)=f(y)-\langle \nabla f(x_0),y\rangle ϕ(y)=f(y)−⟨∇f(x0),y⟩,设最优值点是 y ∗ y^* y∗,根据式1得到:
ϕ ( y ∗ ) ≤ ϕ ( y − 1 L ϕ ′ ( y ) ) ≤ ϕ ( y ) − 1 2 L ∥ ϕ ′ ( y ) ∥ 2 \phi(y^*)\leq \phi(y-\frac{1}{L}\phi'(y))\leq \phi(y)-\frac{1}{2L}\|\phi'(y)\|^2 ϕ(y∗)≤ϕ(y−L1ϕ′(y))≤ϕ(y)−2L1∥ϕ′(y)∥2
ϕ ( y ∗ ) ≤ ϕ ( y ) − 1 2 L ∥ ϕ ′ ( y ) ∥ 2 ⇒ f ( x 0 ) − ⟨ ∇ f ( x 0 ) , x 0 ⟩ ≤ f ( y ) − ⟨ ∇ f ( x 0 ) , y ⟩ − 1 2 L ∥ ϕ ′ ( y ) ∥ 2 ⇒ f ( x 0 ) + ⟨ f ( x 0 ) , y − x 0 ⟩ + 1 2 L ∥ ϕ ′ ( y ) ∥ 2 ≤ f (