Bregman Divergence

Bregman Divergence

翻译自 Bregman Divergence and Mirror Descent

动机

  • 将欧几里得距离的平方概括为一类距离,这些距离都具有相似的性质。
  • 在机器学习、聚类、指数族等方面有很多应用。

定义1(Bregman divergence) 函数 ψ : Ω → R \psi : \Omega \rightarrow \reals ψ:ΩR满足:
a). 严凸
b). 连续可微
c). 定义在一个封闭的凸集 Ω \Omega Ω上。
那么Bregman散度可以定义为:
Div ψ ( x , y ) = ψ ( x ) − ψ ( y ) − < ∇ ψ ( y ) , x − y > . (1) \text{Div}_{\psi} (x, y) = \psi(x) - \psi(y) - \left< \nabla \psi (y), x - y \right>. \tag{1} Divψ(x,y)=ψ(x)ψ(y)ψ(y),xy.(1)
即为 ψ \psi ψ x x x处的值与 ψ \psi ψ y y y周围的一阶泰勒展开式取 x x x的值之间的差。

函数名 ψ ( x ) \psi (x) ψ(x)函数定义域 Div ψ ( x , y ) \text{Div}_{\psi} (x, y) Divψ(x,y)
Squared norm 1 2 x 2 \frac{1}{2}x^2 21x2 ( − ∞ , + ∞ ) (-\infty, +\infty) (,+) 1 2 ( x − y ) 2 \frac{1}{2}(x-y)^2 21(xy)2
Shannon entropy x log ⁡ x − x x \log x - x xlogxx [ 0 , + ∞ ) [0, +\infty) [0,+) x log ⁡ x y − x + y x \log \frac{x}{y} - x +y xlogyxx+y
Bit entropy x log ⁡ x + ( 1 − x ) log ⁡ ( 1 − x ) x \log x + (1 - x) \log (1 - x) xlogx+(1x)log(1x) [ 0 , 1 ] [0, 1] [0,1] x log ⁡ x y + ( 1 − x ) log ⁡ ( 1 − x ) ( 1 − y ) x \log \frac{x}{y} + (1 - x) \log \frac{(1 - x)}{(1 - y)} xlogyx+(1x)log(1y)(1x)
Burg entropy − log ⁡ x - \log x logx ( 0 , + ∞ ) (0, +\infty) (0,+) x y − log ⁡ x y − 1 \frac{x}{y} - \log \frac{x}{y} - 1 yxlogyx1
Hellinger − 1 − x 2 - \sqrt{1 - x^2} 1x2 [ − 1 , 1 ] [-1, 1] [1,1] ( 1 − x y ) ( 1 − y 2 ) − 1 2 − ( 1 − x 2 ) 1 2 (1 - xy)(1 - y^2)^{-\frac{1}{2}} - (1 - x^2 )^{\frac{1}{2}} (1xy)(1y2)21(1x2)21
l p l_p lp quasi-norm − x p ( 0 < p < 1 ) - x^p \quad (0<p<1) xp(0<p<1) [ 0 , + ∞ ) [0, +\infty) [0,+) − x p + p x y p − 1 − ( p − 1 ) y p -x^p+pxy^{p-1}-(p-1)y^p xp+pxyp1(p1)yp
l p l_p lp norm − ∣ x ∣ p ( 1 < p < ∞ ) - \vert x \vert^p \quad (1<p<\infty) xp(1<p<) ( − ∞ , + ∞ ) (-\infty, +\infty) (,+) ∣ x ∣ p − p x y p − 1 sgn ( y ) + ( p − 1 ) ∣ y ∣ p \vert x \vert^p - p x y^{p-1} \text{sgn}(y) + (p-1) \vert y \vert^p xppxyp1sgn(y)+(p1)yp
Exponential exp ⁡ ( x ) \exp(x) exp(x) ( − ∞ , + ∞ ) (-\infty, +\infty) (,+) exp ⁡ ( x ) − ( x − y + 1 ) exp ⁡ ( y ) \exp(x) - \left(x - y + 1 \right) \exp(y) exp(x)(xy+1)exp(y)
Hellinger 1 x \frac{1}{x} x1 ( 0 , + ∞ ) (0, +\infty) (0,+) 1 x + x y 2 − 2 y \frac{1}{x} + \frac{x}{y^2} - \frac{2}{y} x1+y2xy2

例子

  • 欧式距离。令 ψ ( x ) = 1 2 ∥ x ∥ 2 \psi(x)=\frac{1}{2}\|x\|^2 ψ(x)=21x2,则 Div ψ ( x , y ) = 1 2 ∥ x − y ∥ 2 \text{Div}_{\psi}(x,y) = \frac{1}{2} \| x - y \|^2 Divψ(x,y)=21xy2
  • Ω = { x ∈ R + n : ∑ i x i = 1 } \Omega = \{ x \in \reals_{+}^{n} : \sum_{i} x_i = 1 \} Ω={xR+n:ixi=1},且 ψ ( x ) = ∑ i x i log ⁡ x i \psi(x) = \sum_{i} x_i \log x_i ψ(x)=ixilogxi。那么 Div ψ ( x , y ) = ∑ i x i log ⁡ x i y i , x , y ∈ Ω \text{Div}_{\psi}(x,y) = \sum_{i} x_i \log \frac{x_i}{y_i}, x, y \in \Omega Divψ(x,y)=ixilogyixi,x,yΩ。这就是所谓的相对熵,或概率分布 x x x y y y之间的Kullback-Leibler散度。
  • l p l_p lp范式。令 p ≥ 1 p \geq 1 p1 1 p + 1 q = 1 \frac{1}{p} + \frac{1}{q} = 1 p1+q1=1 ψ ( x ) = 1 2 ∥ x ∥ q 2 \psi(x)=\frac{1}{2}\|x\|_q^2 ψ(x)=21xq2。那么 Div ψ ( x , y ) = 1 2 ∥ x ∥ q 2 + 1 2 ∥ y ∥ q 2 − < x , ∇ 1 2 ∥ y ∥ q 2 > \text{Div}_{\psi}(x,y) = \frac{1}{2}\|x\|_q^2 + \frac{1}{2}\|y\|_q^2 - \left< x , \nabla \frac{1}{2}\|y\|_q^2 \right> Divψ(x,y)=21xq2+21yq2x,21yq2。注意 1 2 ∥ y ∥ q 2 \frac{1}{2}\|y\|_q^2 21yq2不一定是可连续微分的,这就使得这种情况与我们的定义不完全一致。

Properties of Bregman divergence

1. Bregman散度 Div ψ ( x , y ) \text{Div}_{\psi}(x,y) Divψ(x,y)关于第一个变量 x x x是严格凸函数,那么函数 ψ \psi ψ的严格凸性并不重要。

原文: Strict convexity in the first argument x x x. Trivial by the strict convexity of ψ \psi ψ.

2. 非负性。 ∀ x , y \forall x, y x,y,有 Div ψ ( x , y ) ≥ 0 \text{Div}_{\psi}(x,y) \geq 0 Divψ(x,y)0,等号当且仅当 x = y x=y x=y时取得。不要求严格凸亦成立(Trivial by strict convexity.)。

3. 非对称性。一般情况下 Div ψ ( x , y ) ≠ Div ψ ( y , x ) \text{Div}_{\psi}(x,y) \neq \text{Div}_{\psi}(y,x) Divψ(x,y)=Divψ(y,x),例如KL散度。对称性并不是一直有用。

4. 关于第二变量 y y y非凸。令 Ω = [ 1 , ∞ ) , ψ ( x ) = − log ⁡ x \Omega = [1, \infty), \psi(x) = - \log x Ω=[1,),ψ(x)=logx。那么 Div ψ ( x , y ) = − log ⁡ x + log ⁡ y + x − y y \text{Div}_{\psi}(x,y) = - \log x + \log y + \frac{x-y}{y} Divψ(x,y)=logx+logy+yxy。计算其关于 y y y的二阶偏导为 1 y 2 ( 2 x y − 1 ) \frac{1}{y^2}(\frac{2x}{y}-1) y21(y2x1),当 2 x < y 2x < y 2x<y时为负。

5. 关于 ψ \psi ψ的线性。对于任意 a > 0 a > 0 a>0,有 Div ψ + a ϕ ( x , y ) = Div ψ ( x , y ) + a Div ϕ ( x , y ) \text{Div}_{\psi + a \phi}(x,y)= \text{Div}_{\psi}(x,y) + a \text{Div}_{\phi}(x,y) Divψ+aϕ(x,y)=Divψ(x,y)+aDivϕ(x,y)

6. 关于 x x x的梯度。 ∂ ∂ x Div ψ ( x , y ) = ∇ ψ ( x ) − ∇ ψ ( y ) \frac{\partial }{ \partial x} \text{Div}_{\psi}(x,y) = \nabla \psi (x) - \nabla \psi (y) xDivψ(x,y)=ψ(x)ψ(y)。关于 y y y的梯度比较棘手,不常用。

7. 广义三角形不等式:
Div ψ ( x , y ) + Div ψ ( y , z ) = ψ ( x ) − ψ ( y ) − < ∇ ψ ( y ) , x − y > + ψ ( y ) − ψ ( z ) − < ∇ ψ ( z ) , y − z > = Div ψ ( x , z ) + < x − y , ∇ ψ ( z ) − ∇ ψ ( y ) > . (2) \begin{aligned} \text{Div}_{\psi}(x,y) + \text{Div}_{\psi}(y,z) &= \psi(x) - \psi(y) - \left< \nabla \psi (y), x - y \right> + \psi(y) - \psi(z) - \left< \nabla \psi (z), y - z \right> \\ &= \text{Div}_{\psi}(x,z) + \left< x - y, \nabla \psi (z) - \nabla \psi (y) \right>. \end{aligned} \tag{2} Divψ(x,y)+Divψ(y,z)=ψ(x)ψ(y)ψ(y),xy+ψ(y)ψ(z)ψ(z),yz=Divψ(x,z)+xy,ψ(z)ψ(y).(2)

8. 特例,如果 ψ \psi ψ对于某些范式和模数 σ \sigma σ满足:
ψ ( x ) ≥ ψ ( y ) + < ∇ ψ ( y ) , x − y > + σ 2 ∥ x − y ∥ 2 . (3) \psi (x) \geq \psi(y) + \left< \nabla \psi(y), x - y\right> + \frac{\sigma}{2} \| x - y \|^2. \tag{3} ψ(x)ψ(y)+ψ(y),xy+2σxy2.(3)
则称 ψ \psi ψ σ \sigma σ-强凸函数。需要注意的是,并不需要是欧几里得范式。如果是欧式范式,那么上式条件等价于 ψ ( x ) − σ 2 ∥ x ∥ 2 \psi(x) - \frac{\sigma}{2} \| x \|^2 ψ(x)2σx2是凸函数。比如,KL散度中的 ψ ( x ) = ∑ i x i \psi (x) = \sum_{i} x_i ψ(x)=ixi是在 Ω = { x ∈ R + n : ∑ i x i = 1 } \Omega = \{ x \in \reals_{+}^{n} : \sum_{i} x_i = 1 \} Ω={xR+n:ixi=1} l 1 l_1 l1范式下的1-强凸函数。当 ψ \psi ψ σ \sigma σ-强凸函数,有:
Div ψ ( x , y ) ≥ σ 2 ∥ x − y ∥ 2 . (4) \text{Div}_{\psi}(x,y) \geq \frac{\sigma}{2} \| x - y \|^2. \tag{4} Divψ(x,y)2σxy2.(4)

证明: 根据定义有 Div ψ ( x , y ) = ψ ( x ) − ψ ( y ) − < ∇ ψ ( y ) , x − y > ≥ σ 2 ∥ x − y ∥ 2 \text{Div}_{\psi} (x, y) = \psi(x) - \psi(y) - \left< \nabla \psi (y), x - y \right> \geq \frac{\sigma}{2} \| x - y \|^2 Divψ(x,y)=ψ(x)ψ(y)ψ(y),xy2σxy2

9. 对偶性。假设 ψ \psi ψ是强凸函数,那么
( ∇ ψ ∗ ) ∇ ψ ( x ) = x , Div ψ ( x , y ) = Div ψ ∗ ( ∇ ψ ( y ) , ∇ ψ ( x ) ) . (5) (\nabla \psi^{*}) \nabla \psi (x) = x, \qquad \text{Div}_{\psi} (x, y) = \text{Div}_{\psi^{*}} (\nabla \psi (y), \nabla \psi (x)). \tag{5} (ψ)ψ(x)=x,Divψ(x,y)=Divψ(ψ(y),ψ(x)).(5)
证明: 先证第一个等式。根据:
ψ ∗ ( y ) = sup ⁡ z ∈ Ω { < z , y > − ψ ( z ) } . (6) \psi^{*}(y) = \sup_{z \in \Omega} \{ \left< z, y \right> - \psi (z) \}. \tag{6} ψ(y)=zΩsup{z,yψ(z)}.(6)
sup ⁡ \sup sup是可以实现的,因为 ψ \psi ψ是强凸的,且定义域 Ω \Omega Ω是闭集。如果在 x x x处取得最大值,当且仅当 y = ∇ ψ ( x ) y = \nabla \psi (x) y=ψ(x)(令 ∂ ∂ z ( < z , y > − ψ ( z ) ) = y − ∇ ψ ( z ) = 0 \frac{\partial}{\partial z} \left( \left< z, y \right> - \psi (z) \right) = y - \nabla \psi (z) =0 z(z,yψ(z))=yψ(z)=0即得)。因此
ψ ∗ ( y ) + ψ ( y ) = < x , y > ⇔ y = ∇ ψ ( x ) . (7) \psi^{*}(y) + \psi (y) = \left< x, y \right> \quad \Leftrightarrow \quad y = \nabla \psi (x). \tag{7} ψ(y)+ψ(y)=x,yy=ψ(x).(7)
因为 ψ = ψ ∗ ∗ \psi = \psi^{**} ψ=ψ,因此 ψ ∗ ( y ) + ψ ∗ ∗ ( y ) = < x , y > \psi^{*}(y) + \psi^{**} (y) = \left< x, y \right> ψ(y)+ψ(y)=x,y,也就是说
ψ ∗ ∗ ( y ) = sup ⁡ z ∈ Ω { < z , y > − ψ ∗ ( z ) } (8) \psi^{**}(y) = \sup_{z \in \Omega} \{ \left< z, y \right> - \psi^{*} (z) \} \tag{8} ψ(y)=zΩsup{z,yψ(z)}(8)
y y y处取得最大值,即 x = ∇ ∗ ψ ( y ) x = \nabla^{*} \psi (y) x=ψ(y)。因此 ( ∇ ψ ∗ ) ( ∇ ψ ( x ) ) = ∇ ψ ∗ ( y ) = x (\nabla \psi^{*}) (\nabla \psi (x) ) = \nabla \psi^{*} (y) = x (ψ)(ψ(x))=ψ(y)=x,证毕。

再证第二等式。根据式(6)有 ψ ∗ ( ∇ ψ ( y ) ) = sup ⁡ z ∈ Ω { < z , ∇ ψ ( y ) > − ψ ( z ) } \psi^{*}( \nabla \psi (y) ) = \sup_{z \in \Omega} \{ \left< z, \nabla \psi (y) \right> - \psi (z) \} ψ(ψ(y))=supzΩ{z,ψ(y)ψ(z)},同样的,令 ∂ ∂ z ( < z , ∇ ψ ( y ) > − ψ ( z ) ) = 0 \frac{\partial}{\partial z} \left( \left< z, \nabla \psi (y) \right> - \psi (z) \right) =0 z(z,ψ(y)ψ(z))=0,得到 ψ ∗ ( ∇ ψ ( y ) ) = < y , ∇ ψ ( y ) > − ψ ( y ) \psi^{*}( \nabla \psi (y) ) = \left< y, \nabla \psi (y) \right> - \psi (y) ψ(ψ(y))=y,ψ(y)ψ(y)。同理有 ψ ∗ ( ∇ ψ ( x ) ) = < x , ∇ ψ ( x ) > − ψ ( x ) \psi^{*}( \nabla \psi (x) ) = \left< x, \nabla \psi (x) \right> - \psi (x) ψ(ψ(x))=x,ψ(x)ψ(x)。那么
Div ψ ∗ ( ∇ ψ ( y ) , ∇ ψ ( x ) ) = ψ ∗ ( ∇ ψ ( y ) ) − ψ ∗ ( ∇ ψ ( x ) ) − < ∇ ψ ∗ ( ∇ ψ ( x ) ) , ∇ ψ ( y ) − ∇ ψ ( x ) > = < y , ∇ ψ ( y ) > − ψ ( y ) − < x , ∇ ψ ( x ) > + ψ ( x ) − < x , ∇ ψ ( y ) − ∇ ψ ( x ) > = < y , ∇ ψ ( y ) > − ψ ( y ) − < x , ∇ ψ ( x ) > + ψ ( x ) − < x , ∇ ψ ( y ) > + < x , ∇ ψ ( x ) > = ψ ( x ) − ψ ( y ) − < x − y , ∇ ψ ( y ) > = Div ψ ( x , y ) . (9) \begin{aligned} \text{Div}_{\psi^{*}} (\nabla \psi (y), \nabla \psi (x)) &= \psi^{*}(\nabla \psi (y)) - \psi^{*}(\nabla \psi (x)) - \left< \nabla \psi^{*} (\nabla \psi (x)), \nabla \psi (y) - \nabla \psi (x) \right> \\ & = \left< y, \nabla \psi (y) \right> - \psi (y) - \left< x, \nabla \psi (x) \right> + \psi (x) - \left< x, \nabla \psi (y) - \nabla \psi (x) \right> \\ &= \left< y, \nabla \psi (y) \right> - \psi (y) - \left< x, \nabla \psi (x) \right> + \psi (x) - \left< x, \nabla \psi (y) \right> + \left< x, \nabla \psi (x) \right> \\ &= \psi (x) - \psi (y) - \left< x - y, \nabla \psi (y) \right>\\ &= \text{Div}_{\psi} (x, y). \end{aligned} \tag{9} Divψ(ψ(y),ψ(x))=ψ(ψ(y))ψ(ψ(x))ψ(ψ(x)),ψ(y)ψ(x)=y,ψ(y)ψ(y)x,ψ(x)+ψ(x)x,ψ(y)ψ(x)=y,ψ(y)ψ(y)x,ψ(x)+ψ(x)x,ψ(y)+x,ψ(x)=ψ(x)ψ(y)xy,ψ(y)=Divψ(x,y).(9)

10. 分布的平均值。假设 U U U是开集 S S S服从 μ \mu μ分布的随机变量,那么
min ⁡ x ∈ S E U ∼ μ [ Div ψ ( U , x ) ] . (10) \min_{x \in S} \mathbb{E}_{U \sim \mu} \left[ \text{Div}_{\psi} (U, x) \right]. \tag{10} xSminEUμ[Divψ(U,x)].(10)
μ ˉ : = E μ = ∫ u ∈ S u μ ( u ) \bar{\mu} := \mathbb{E}_{\mu} = \int_{u \in S} u \mu(u) μˉ:=Eμ=uSuμ(u)处取得最小值。

证明: 对于任意的 x ∈ S x \in S xS,都有:
E U ∼ μ [ Div ψ ( U , x ) ] − E U ∼ μ [ Div ψ ( U , μ ˉ ) ] = E U ∼ μ [ ψ ( U ) − ψ ( x ) − < ∇ ψ ( x ) , U − x > − ψ ( U ) + ψ ( μ ˉ ) + < ∇ ψ ( μ ˉ ) , U − μ ˉ > ] = ψ ( μ ˉ ) − ψ ( x ) + x T ∇ ψ ( x ) − μ ˉ T ∇ ψ ( μ ˉ ) + E U ∼ μ [ − U T ∇ ψ ( x ) + U T ∇ ψ ( μ ˉ ) ] = ψ ( μ ˉ ) − ψ ( x ) − ( μ ˉ − x ) T ∇ ψ ( x ) + μ ˉ T ∇ ψ ( x ) − μ ˉ T ∇ ψ ( μ ˉ ) − ( E U ∼ μ [ U ] ) T ∇ ψ ( x ) + ( E U ∼ μ [ U ] ) T ∇ ψ ( μ ˉ ) = ψ ( μ ˉ ) − ψ ( x ) − ( μ ˉ − x ) T ∇ ψ ( x ) = Div ψ ( μ ˉ , x ) . (11) \begin{aligned} & \mathbb{E}_{U \sim \mu} \left[ \text{Div}_{\psi} (U, x) \right] - \mathbb{E}_{U \sim \mu} \left[ \text{Div}_{\psi} (U, \bar{\mu}) \right] \\ =& \mathbb{E}_{U \sim \mu} \left[ \psi(U) - \psi(x) - \left< \nabla \psi (x), U - x \right> - \psi(U) + \psi(\bar{\mu}) + \left< \nabla \psi (\bar{\mu}), U - \bar{\mu} \right> \right] \\ =& \psi(\bar{\mu}) - \psi(x) + x^T \nabla \psi (x) - \bar{\mu}^T \nabla \psi (\bar{\mu}) + \mathbb{E}_{U \sim \mu} \left[ - U^T \nabla \psi (x) + U^T \nabla \psi (\bar{\mu}) \right] \\ =& \psi(\bar{\mu}) - \psi(x) - (\bar{\mu} - x)^T \nabla \psi (x) + \bar{\mu}^T \nabla \psi (x)- \bar{\mu}^T \nabla \psi (\bar{\mu}) \\ &- (\mathbb{E}_{U \sim \mu} \left[ U \right])^T \nabla \psi (x) + (\mathbb{E}_{U \sim \mu} \left[ U \right])^T \nabla \psi (\bar{\mu})\\ =& \psi(\bar{\mu}) - \psi(x) - (\bar{\mu} - x)^T \nabla \psi (x) \\ =& \text{Div}_{\psi} (\bar{\mu}, x). \end{aligned} \tag{11} =====EUμ[Divψ(U,x)]EUμ[Divψ(U,μˉ)]EUμ[ψ(U)ψ(x)ψ(x),Uxψ(U)+ψ(μˉ)+ψ(μˉ),Uμˉ]ψ(μˉ)ψ(x)+xTψ(x)μˉTψ(μˉ)+EUμ[UTψ(x)+UTψ(μˉ)]ψ(μˉ)ψ(x)(μˉx)Tψ(x)+μˉTψ(x)μˉTψ(μˉ)(EUμ[U])Tψ(x)+(EUμ[U])Tψ(μˉ)ψ(μˉ)ψ(x)(μˉx)Tψ(x)Divψ(μˉ,x).(11)
上式是非负的,当且仅当 x = μ ˉ x = \bar{\mu} x=μˉ时为0。

11. 毕达哥拉斯定理(三点定理)。如果 x ∗ x^{*} x x 0 x_0 x0在凸集 C ∈ Ω C \in \Omega CΩ的投影:
x ∗ = arg min ⁡ x ∈ C Div ψ ( x , x 0 ) . (12) x^{*} = \argmin_{x \in C} \text{Div}_{\psi} (x, x_0). \tag{12} x=xCargminDivψ(x,x0).(12)
那么
Div ψ ( y , x 0 ) ≥ Div ψ ( y , x ∗ ) + Div ψ ( x ∗ , x 0 ) . (13) \text{Div}_{\psi} (y, x_0) \geq \text{Div}_{\psi} (y, x^{*}) + \text{Div}_{\psi} (x^{*}, x_0). \tag{13} Divψ(y,x0)Divψ(y,x)+Divψ(x,x0).(13)
如果是欧式的情况下,上式的意味着 ∠ y x ∗ x 0 \angle y x^{*} x_0 yxx0是钝角。更为一般的情况,为引理1。

引理1: 假设 L L L是一个合适的函数(proper convex function),其定义域是一个包含 C C C的开集。 L L L不一定是可微的。令 x ∗ x^{*} x为:
x ∗ = arg min ⁡ x ∈ C { L ( x ) + Div ψ ( x , x 0 ) } . (14) x^{*} = \argmin_{x \in C} \{ L(x) + \text{Div}_{\psi} (x, x_0) \}. \tag{14} x=xCargmin{L(x)+Divψ(x,x0)}.(14)
那么对于任意的 y ∈ C y \in C yC,有
L ( y ) + Div ψ ( y , x 0 ) ≥ L ( x ∗ ) + Div ψ ( x ∗ , x 0 ) + Div ψ ( y , x ∗ ) . (15) L(y) + \text{Div}_{\psi} (y, x_0) \geq L(x^{*}) + \text{Div}_{\psi} (x^{*}, x_0) + \text{Div}_{\psi} (y, x^{*}). \tag{15} L(y)+Divψ(y,x0)L(x)+Divψ(x,x0)+Divψ(y,x).(15)
式(12)是 L = 0 L=0 L=0的特殊情况。这个性质是分析Bregman散度相关优化算法的关键。

证明: J ( x ) = L ( x ) + Div ψ ( x , x 0 ) J(x) = L(x) + \text{Div}_{\psi} (x, x_0) J(x)=L(x)+Divψ(x,x0),因为 x ∗ x^{*} x J J J C C C上的极小值点,因此存在次梯度(subgradient) d ∈ ∂ J ( x ∗ ) d \in \partial J(x^{*}) dJ(x)这里使用次梯度是因为 L L L不一定可微),使得
< d , x − x ∗ > ≥ 0 , x ∈ C . (16) \left< d, x - x^{*} \right> \geq 0, \quad x \in C. \tag{16} d,xx0,xC.(16)

因为
∂ J ( x ∗ ) = { g + ∇ x = x ∗ Div ψ ( x , x 0 ) : g ∈ ∂ L ( x ∗ ) } = { g + ∇ ψ ( x ∗ ) − ∇ ψ ( x 0 ) : g ∈ ∂ L ( x ∗ ) } . (17) \begin{aligned} \partial J(x^{*}) &= \{ g + \nabla_{x = x^{*}} \text{Div}_{\psi} (x, x_0) : g \in \partial L(x^{*})\} \\ &= \{ g + \nabla \psi (x^{*}) - \nabla \psi (x_0) : g \in \partial L(x^{*})\}. \end{aligned} \tag{17} J(x)={g+x=xDivψ(x,x0):gL(x)}={g+ψ(x)ψ(x0):gL(x)}.(17)
因此,必然存在一个次梯度 g ∈ ∂ L ( x ∗ ) g \in \partial L(x^{*}) gL(x)使得:
< g + ∇ ψ ( x ∗ ) − ∇ ψ ( x 0 ) , x − x ∗ > ≥ 0 , x ∈ C . (18) \left< g + \nabla \psi (x^{*}) - \nabla \psi (x_0), x - x^{*} \right> \geq 0, \quad x \in C. \tag{18} g+ψ(x)ψ(x0),xx0,xC.(18)

对于任意的 y ∈ C y \in C yC,根据次梯度的性质有:
L ( y ) ≥ 次 梯 度 性 质 L ( x ∗ ) + < g , y − x ∗ > ≥ 式 ( 18 ) L ( x ∗ ) + < ∇ ψ ( x 0 ) − ∇ ψ ( x ∗ ) , y − x ∗ > = 分 凑 项 L ( x ∗ ) − < ∇ ψ ( x 0 ) , x ∗ − x 0 > + ψ ( x ∗ ) − ψ ( x 0 ) + < ∇ ψ ( x 0 ) , y − x 0 > − ψ ( y ) + ψ ( x 0 ) − < ∇ ψ ( x ∗ ) , y − x ∗ > + ψ ( y ) − ψ ( x ∗ ) = L ( x ∗ ) + Div ψ ( x ∗ , x 0 ) − Div ψ ( y , x 0 ) + Div ψ ( y , x ∗ ) . (19) \begin{aligned} L(y) \overset{次梯度性质}{\geq}& L(x^{*}) + \left< g, y - x^{*} \right> \\ \overset{式(18)}{\geq}& L(x^{*}) + \left< \nabla \psi (x_0) - \nabla \psi (x^{*}), y - x^{*} \right> \\ \overset{分凑项}{=}& L(x^{*}) - \left< \nabla \psi (x_0), x^{*} - x_0 \right> + \psi (x^{*}) - \psi (x_0) \\ &+ \left< \nabla \psi (x_0), y - x_0 \right> - \psi (y) + \psi (x_0) \\ &- \left< \nabla \psi (x^{*}), y - x^{*} \right> + \psi (y) - \psi (x^{*}) \\ =& L(x^{*}) + \text{Div}_{\psi} (x^{*}, x_0) - \text{Div}_{\psi} (y, x_0) + \text{Div}_{\psi} (y, x^{*}). \end{aligned} \tag{19} L(y)(18)==L(x)+g,yxL(x)+ψ(x0)ψ(x),yxL(x)ψ(x0),xx0+ψ(x)ψ(x0)+ψ(x0),yx0ψ(y)+ψ(x0)ψ(x),yx+ψ(y)ψ(x)L(x)+Divψ(x,x0)Divψ(y,x0)+Divψ(y,x).(19)
Div ψ ( y , x 0 ) \text{Div}_{\psi} (y, x_0) Divψ(y,x0)移动到不等式左边,完成证明。

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值