Bregman Divergence
动机
- 将欧几里得距离的平方概括为一类距离,这些距离都具有相似的性质。
- 在机器学习、聚类、指数族等方面有很多应用。
定义1(Bregman divergence) 函数
ψ
:
Ω
→
R
\psi : \Omega \rightarrow \reals
ψ:Ω→R满足:
a). 严凸
b). 连续可微
c). 定义在一个封闭的凸集
Ω
\Omega
Ω上。
那么Bregman散度
可以定义为:
Div
ψ
(
x
,
y
)
=
ψ
(
x
)
−
ψ
(
y
)
−
<
∇
ψ
(
y
)
,
x
−
y
>
.
(1)
\text{Div}_{\psi} (x, y) = \psi(x) - \psi(y) - \left< \nabla \psi (y), x - y \right>. \tag{1}
Divψ(x,y)=ψ(x)−ψ(y)−⟨∇ψ(y),x−y⟩.(1)
即为
ψ
\psi
ψ在
x
x
x处的值与
ψ
\psi
ψ在
y
y
y周围的一阶泰勒展开式取
x
x
x的值之间的差。
函数名 | ψ ( x ) \psi (x) ψ(x) | 函数定义域 | Div ψ ( x , y ) \text{Div}_{\psi} (x, y) Divψ(x,y) |
---|---|---|---|
Squared norm | 1 2 x 2 \frac{1}{2}x^2 21x2 | ( − ∞ , + ∞ ) (-\infty, +\infty) (−∞,+∞) | 1 2 ( x − y ) 2 \frac{1}{2}(x-y)^2 21(x−y)2 |
Shannon entropy | x log x − x x \log x - x xlogx−x | [ 0 , + ∞ ) [0, +\infty) [0,+∞) | x log x y − x + y x \log \frac{x}{y} - x +y xlogyx−x+y |
Bit entropy | x log x + ( 1 − x ) log ( 1 − x ) x \log x + (1 - x) \log (1 - x) xlogx+(1−x)log(1−x) | [ 0 , 1 ] [0, 1] [0,1] | x log x y + ( 1 − x ) log ( 1 − x ) ( 1 − y ) x \log \frac{x}{y} + (1 - x) \log \frac{(1 - x)}{(1 - y)} xlogyx+(1−x)log(1−y)(1−x) |
Burg entropy | − log x - \log x −logx | ( 0 , + ∞ ) (0, +\infty) (0,+∞) | x y − log x y − 1 \frac{x}{y} - \log \frac{x}{y} - 1 yx−logyx−1 |
Hellinger | − 1 − x 2 - \sqrt{1 - x^2} −1−x2 | [ − 1 , 1 ] [-1, 1] [−1,1] | ( 1 − x y ) ( 1 − y 2 ) − 1 2 − ( 1 − x 2 ) 1 2 (1 - xy)(1 - y^2)^{-\frac{1}{2}} - (1 - x^2 )^{\frac{1}{2}} (1−xy)(1−y2)−21−(1−x2)21 |
l p l_p lp quasi-norm | − x p ( 0 < p < 1 ) - x^p \quad (0<p<1) −xp(0<p<1) | [ 0 , + ∞ ) [0, +\infty) [0,+∞) | − x p + p x y p − 1 − ( p − 1 ) y p -x^p+pxy^{p-1}-(p-1)y^p −xp+pxyp−1−(p−1)yp |
l p l_p lp norm | − ∣ x ∣ p ( 1 < p < ∞ ) - \vert x \vert^p \quad (1<p<\infty) −∣x∣p(1<p<∞) | ( − ∞ , + ∞ ) (-\infty, +\infty) (−∞,+∞) | ∣ x ∣ p − p x y p − 1 sgn ( y ) + ( p − 1 ) ∣ y ∣ p \vert x \vert^p - p x y^{p-1} \text{sgn}(y) + (p-1) \vert y \vert^p ∣x∣p−pxyp−1sgn(y)+(p−1)∣y∣p |
Exponential | exp ( x ) \exp(x) exp(x) | ( − ∞ , + ∞ ) (-\infty, +\infty) (−∞,+∞) | exp ( x ) − ( x − y + 1 ) exp ( y ) \exp(x) - \left(x - y + 1 \right) \exp(y) exp(x)−(x−y+1)exp(y) |
Hellinger | 1 x \frac{1}{x} x1 | ( 0 , + ∞ ) (0, +\infty) (0,+∞) | 1 x + x y 2 − 2 y \frac{1}{x} + \frac{x}{y^2} - \frac{2}{y} x1+y2x−y2 |
例子
- 欧式距离。令 ψ ( x ) = 1 2 ∥ x ∥ 2 \psi(x)=\frac{1}{2}\|x\|^2 ψ(x)=21∥x∥2,则 Div ψ ( x , y ) = 1 2 ∥ x − y ∥ 2 \text{Div}_{\psi}(x,y) = \frac{1}{2} \| x - y \|^2 Divψ(x,y)=21∥x−y∥2。
- Ω = { x ∈ R + n : ∑ i x i = 1 } \Omega = \{ x \in \reals_{+}^{n} : \sum_{i} x_i = 1 \} Ω={x∈R+n:∑ixi=1},且 ψ ( x ) = ∑ i x i log x i \psi(x) = \sum_{i} x_i \log x_i ψ(x)=∑ixilogxi。那么 Div ψ ( x , y ) = ∑ i x i log x i y i , x , y ∈ Ω \text{Div}_{\psi}(x,y) = \sum_{i} x_i \log \frac{x_i}{y_i}, x, y \in \Omega Divψ(x,y)=∑ixilogyixi,x,y∈Ω。这就是所谓的相对熵,或概率分布 x x x和 y y y之间的Kullback-Leibler散度。
- l p l_p lp范式。令 p ≥ 1 p \geq 1 p≥1且 1 p + 1 q = 1 \frac{1}{p} + \frac{1}{q} = 1 p1+q1=1, ψ ( x ) = 1 2 ∥ x ∥ q 2 \psi(x)=\frac{1}{2}\|x\|_q^2 ψ(x)=21∥x∥q2。那么 Div ψ ( x , y ) = 1 2 ∥ x ∥ q 2 + 1 2 ∥ y ∥ q 2 − < x , ∇ 1 2 ∥ y ∥ q 2 > \text{Div}_{\psi}(x,y) = \frac{1}{2}\|x\|_q^2 + \frac{1}{2}\|y\|_q^2 - \left< x , \nabla \frac{1}{2}\|y\|_q^2 \right> Divψ(x,y)=21∥x∥q2+21∥y∥q2−⟨x,∇21∥y∥q2⟩。注意 1 2 ∥ y ∥ q 2 \frac{1}{2}\|y\|_q^2 21∥y∥q2不一定是可连续微分的,这就使得这种情况与我们的定义不完全一致。
Properties of Bregman divergence
1.
Bregman散度
Div
ψ
(
x
,
y
)
\text{Div}_{\psi}(x,y)
Divψ(x,y)关于第一个变量
x
x
x是严格凸函数,那么函数
ψ
\psi
ψ的严格凸性并不重要。
原文: Strict convexity in the first argument x x x. Trivial by the strict convexity of ψ \psi ψ.
2.
非负性。
∀
x
,
y
\forall x, y
∀x,y,有
Div
ψ
(
x
,
y
)
≥
0
\text{Div}_{\psi}(x,y) \geq 0
Divψ(x,y)≥0,等号当且仅当
x
=
y
x=y
x=y时取得。不要求严格凸亦成立(Trivial by strict convexity.)。
3.
非对称性。一般情况下
Div
ψ
(
x
,
y
)
≠
Div
ψ
(
y
,
x
)
\text{Div}_{\psi}(x,y) \neq \text{Div}_{\psi}(y,x)
Divψ(x,y)=Divψ(y,x),例如KL散度。对称性并不是一直有用。
4.
关于第二变量
y
y
y非凸。令
Ω
=
[
1
,
∞
)
,
ψ
(
x
)
=
−
log
x
\Omega = [1, \infty), \psi(x) = - \log x
Ω=[1,∞),ψ(x)=−logx。那么
Div
ψ
(
x
,
y
)
=
−
log
x
+
log
y
+
x
−
y
y
\text{Div}_{\psi}(x,y) = - \log x + \log y + \frac{x-y}{y}
Divψ(x,y)=−logx+logy+yx−y。计算其关于
y
y
y的二阶偏导为
1
y
2
(
2
x
y
−
1
)
\frac{1}{y^2}(\frac{2x}{y}-1)
y21(y2x−1),当
2
x
<
y
2x < y
2x<y时为负。
5.
关于
ψ
\psi
ψ的线性。对于任意
a
>
0
a > 0
a>0,有
Div
ψ
+
a
ϕ
(
x
,
y
)
=
Div
ψ
(
x
,
y
)
+
a
Div
ϕ
(
x
,
y
)
\text{Div}_{\psi + a \phi}(x,y)= \text{Div}_{\psi}(x,y) + a \text{Div}_{\phi}(x,y)
Divψ+aϕ(x,y)=Divψ(x,y)+aDivϕ(x,y)。
6.
关于
x
x
x的梯度。
∂
∂
x
Div
ψ
(
x
,
y
)
=
∇
ψ
(
x
)
−
∇
ψ
(
y
)
\frac{\partial }{ \partial x} \text{Div}_{\psi}(x,y) = \nabla \psi (x) - \nabla \psi (y)
∂x∂Divψ(x,y)=∇ψ(x)−∇ψ(y)。关于
y
y
y的梯度比较棘手,不常用。
7.
广义三角形不等式:
Div
ψ
(
x
,
y
)
+
Div
ψ
(
y
,
z
)
=
ψ
(
x
)
−
ψ
(
y
)
−
<
∇
ψ
(
y
)
,
x
−
y
>
+
ψ
(
y
)
−
ψ
(
z
)
−
<
∇
ψ
(
z
)
,
y
−
z
>
=
Div
ψ
(
x
,
z
)
+
<
x
−
y
,
∇
ψ
(
z
)
−
∇
ψ
(
y
)
>
.
(2)
\begin{aligned} \text{Div}_{\psi}(x,y) + \text{Div}_{\psi}(y,z) &= \psi(x) - \psi(y) - \left< \nabla \psi (y), x - y \right> + \psi(y) - \psi(z) - \left< \nabla \psi (z), y - z \right> \\ &= \text{Div}_{\psi}(x,z) + \left< x - y, \nabla \psi (z) - \nabla \psi (y) \right>. \end{aligned} \tag{2}
Divψ(x,y)+Divψ(y,z)=ψ(x)−ψ(y)−⟨∇ψ(y),x−y⟩+ψ(y)−ψ(z)−⟨∇ψ(z),y−z⟩=Divψ(x,z)+⟨x−y,∇ψ(z)−∇ψ(y)⟩.(2)
8.
特例,如果
ψ
\psi
ψ对于某些范式和模数
σ
\sigma
σ满足:
ψ
(
x
)
≥
ψ
(
y
)
+
<
∇
ψ
(
y
)
,
x
−
y
>
+
σ
2
∥
x
−
y
∥
2
.
(3)
\psi (x) \geq \psi(y) + \left< \nabla \psi(y), x - y\right> + \frac{\sigma}{2} \| x - y \|^2. \tag{3}
ψ(x)≥ψ(y)+⟨∇ψ(y),x−y⟩+2σ∥x−y∥2.(3)
则称
ψ
\psi
ψ是
σ
\sigma
σ-强凸函数
。需要注意的是,并不需要是欧几里得范式。如果是欧式范式,那么上式条件等价于
ψ
(
x
)
−
σ
2
∥
x
∥
2
\psi(x) - \frac{\sigma}{2} \| x \|^2
ψ(x)−2σ∥x∥2是凸函数。比如,KL散度中的
ψ
(
x
)
=
∑
i
x
i
\psi (x) = \sum_{i} x_i
ψ(x)=∑ixi是在
Ω
=
{
x
∈
R
+
n
:
∑
i
x
i
=
1
}
\Omega = \{ x \in \reals_{+}^{n} : \sum_{i} x_i = 1 \}
Ω={x∈R+n:∑ixi=1}上
l
1
l_1
l1范式下的1-强凸函数。当
ψ
\psi
ψ是
σ
\sigma
σ-强凸函数,有:
Div
ψ
(
x
,
y
)
≥
σ
2
∥
x
−
y
∥
2
.
(4)
\text{Div}_{\psi}(x,y) \geq \frac{\sigma}{2} \| x - y \|^2. \tag{4}
Divψ(x,y)≥2σ∥x−y∥2.(4)
证明: 根据定义有 Div ψ ( x , y ) = ψ ( x ) − ψ ( y ) − < ∇ ψ ( y ) , x − y > ≥ σ 2 ∥ x − y ∥ 2 \text{Div}_{\psi} (x, y) = \psi(x) - \psi(y) - \left< \nabla \psi (y), x - y \right> \geq \frac{\sigma}{2} \| x - y \|^2 Divψ(x,y)=ψ(x)−ψ(y)−⟨∇ψ(y),x−y⟩≥2σ∥x−y∥2。
9.
对偶性。假设
ψ
\psi
ψ是强凸函数,那么
(
∇
ψ
∗
)
∇
ψ
(
x
)
=
x
,
Div
ψ
(
x
,
y
)
=
Div
ψ
∗
(
∇
ψ
(
y
)
,
∇
ψ
(
x
)
)
.
(5)
(\nabla \psi^{*}) \nabla \psi (x) = x, \qquad \text{Div}_{\psi} (x, y) = \text{Div}_{\psi^{*}} (\nabla \psi (y), \nabla \psi (x)). \tag{5}
(∇ψ∗)∇ψ(x)=x,Divψ(x,y)=Divψ∗(∇ψ(y),∇ψ(x)).(5)
证明: 先证第一个等式。根据:
ψ
∗
(
y
)
=
sup
z
∈
Ω
{
<
z
,
y
>
−
ψ
(
z
)
}
.
(6)
\psi^{*}(y) = \sup_{z \in \Omega} \{ \left< z, y \right> - \psi (z) \}. \tag{6}
ψ∗(y)=z∈Ωsup{⟨z,y⟩−ψ(z)}.(6)
sup
\sup
sup是可以实现的,因为
ψ
\psi
ψ是强凸的,且定义域
Ω
\Omega
Ω是闭集。如果在
x
x
x处取得最大值,当且仅当
y
=
∇
ψ
(
x
)
y = \nabla \psi (x)
y=∇ψ(x)(令
∂
∂
z
(
<
z
,
y
>
−
ψ
(
z
)
)
=
y
−
∇
ψ
(
z
)
=
0
\frac{\partial}{\partial z} \left( \left< z, y \right> - \psi (z) \right) = y - \nabla \psi (z) =0
∂z∂(⟨z,y⟩−ψ(z))=y−∇ψ(z)=0即得)。因此
ψ
∗
(
y
)
+
ψ
(
y
)
=
<
x
,
y
>
⇔
y
=
∇
ψ
(
x
)
.
(7)
\psi^{*}(y) + \psi (y) = \left< x, y \right> \quad \Leftrightarrow \quad y = \nabla \psi (x). \tag{7}
ψ∗(y)+ψ(y)=⟨x,y⟩⇔y=∇ψ(x).(7)
因为
ψ
=
ψ
∗
∗
\psi = \psi^{**}
ψ=ψ∗∗,因此
ψ
∗
(
y
)
+
ψ
∗
∗
(
y
)
=
<
x
,
y
>
\psi^{*}(y) + \psi^{**} (y) = \left< x, y \right>
ψ∗(y)+ψ∗∗(y)=⟨x,y⟩,也就是说
ψ
∗
∗
(
y
)
=
sup
z
∈
Ω
{
<
z
,
y
>
−
ψ
∗
(
z
)
}
(8)
\psi^{**}(y) = \sup_{z \in \Omega} \{ \left< z, y \right> - \psi^{*} (z) \} \tag{8}
ψ∗∗(y)=z∈Ωsup{⟨z,y⟩−ψ∗(z)}(8)
在
y
y
y处取得最大值,即
x
=
∇
∗
ψ
(
y
)
x = \nabla^{*} \psi (y)
x=∇∗ψ(y)。因此
(
∇
ψ
∗
)
(
∇
ψ
(
x
)
)
=
∇
ψ
∗
(
y
)
=
x
(\nabla \psi^{*}) (\nabla \psi (x) ) = \nabla \psi^{*} (y) = x
(∇ψ∗)(∇ψ(x))=∇ψ∗(y)=x,证毕。
再证第二等式。根据式(6)有
ψ
∗
(
∇
ψ
(
y
)
)
=
sup
z
∈
Ω
{
<
z
,
∇
ψ
(
y
)
>
−
ψ
(
z
)
}
\psi^{*}( \nabla \psi (y) ) = \sup_{z \in \Omega} \{ \left< z, \nabla \psi (y) \right> - \psi (z) \}
ψ∗(∇ψ(y))=supz∈Ω{⟨z,∇ψ(y)⟩−ψ(z)},同样的,令
∂
∂
z
(
<
z
,
∇
ψ
(
y
)
>
−
ψ
(
z
)
)
=
0
\frac{\partial}{\partial z} \left( \left< z, \nabla \psi (y) \right> - \psi (z) \right) =0
∂z∂(⟨z,∇ψ(y)⟩−ψ(z))=0,得到
ψ
∗
(
∇
ψ
(
y
)
)
=
<
y
,
∇
ψ
(
y
)
>
−
ψ
(
y
)
\psi^{*}( \nabla \psi (y) ) = \left< y, \nabla \psi (y) \right> - \psi (y)
ψ∗(∇ψ(y))=⟨y,∇ψ(y)⟩−ψ(y)。同理有
ψ
∗
(
∇
ψ
(
x
)
)
=
<
x
,
∇
ψ
(
x
)
>
−
ψ
(
x
)
\psi^{*}( \nabla \psi (x) ) = \left< x, \nabla \psi (x) \right> - \psi (x)
ψ∗(∇ψ(x))=⟨x,∇ψ(x)⟩−ψ(x)。那么
Div
ψ
∗
(
∇
ψ
(
y
)
,
∇
ψ
(
x
)
)
=
ψ
∗
(
∇
ψ
(
y
)
)
−
ψ
∗
(
∇
ψ
(
x
)
)
−
<
∇
ψ
∗
(
∇
ψ
(
x
)
)
,
∇
ψ
(
y
)
−
∇
ψ
(
x
)
>
=
<
y
,
∇
ψ
(
y
)
>
−
ψ
(
y
)
−
<
x
,
∇
ψ
(
x
)
>
+
ψ
(
x
)
−
<
x
,
∇
ψ
(
y
)
−
∇
ψ
(
x
)
>
=
<
y
,
∇
ψ
(
y
)
>
−
ψ
(
y
)
−
<
x
,
∇
ψ
(
x
)
>
+
ψ
(
x
)
−
<
x
,
∇
ψ
(
y
)
>
+
<
x
,
∇
ψ
(
x
)
>
=
ψ
(
x
)
−
ψ
(
y
)
−
<
x
−
y
,
∇
ψ
(
y
)
>
=
Div
ψ
(
x
,
y
)
.
(9)
\begin{aligned} \text{Div}_{\psi^{*}} (\nabla \psi (y), \nabla \psi (x)) &= \psi^{*}(\nabla \psi (y)) - \psi^{*}(\nabla \psi (x)) - \left< \nabla \psi^{*} (\nabla \psi (x)), \nabla \psi (y) - \nabla \psi (x) \right> \\ & = \left< y, \nabla \psi (y) \right> - \psi (y) - \left< x, \nabla \psi (x) \right> + \psi (x) - \left< x, \nabla \psi (y) - \nabla \psi (x) \right> \\ &= \left< y, \nabla \psi (y) \right> - \psi (y) - \left< x, \nabla \psi (x) \right> + \psi (x) - \left< x, \nabla \psi (y) \right> + \left< x, \nabla \psi (x) \right> \\ &= \psi (x) - \psi (y) - \left< x - y, \nabla \psi (y) \right>\\ &= \text{Div}_{\psi} (x, y). \end{aligned} \tag{9}
Divψ∗(∇ψ(y),∇ψ(x))=ψ∗(∇ψ(y))−ψ∗(∇ψ(x))−⟨∇ψ∗(∇ψ(x)),∇ψ(y)−∇ψ(x)⟩=⟨y,∇ψ(y)⟩−ψ(y)−⟨x,∇ψ(x)⟩+ψ(x)−⟨x,∇ψ(y)−∇ψ(x)⟩=⟨y,∇ψ(y)⟩−ψ(y)−⟨x,∇ψ(x)⟩+ψ(x)−⟨x,∇ψ(y)⟩+⟨x,∇ψ(x)⟩=ψ(x)−ψ(y)−⟨x−y,∇ψ(y)⟩=Divψ(x,y).(9)
10.
分布的平均值。假设
U
U
U是开集
S
S
S服从
μ
\mu
μ分布的随机变量,那么
min
x
∈
S
E
U
∼
μ
[
Div
ψ
(
U
,
x
)
]
.
(10)
\min_{x \in S} \mathbb{E}_{U \sim \mu} \left[ \text{Div}_{\psi} (U, x) \right]. \tag{10}
x∈SminEU∼μ[Divψ(U,x)].(10)
在
μ
ˉ
:
=
E
μ
=
∫
u
∈
S
u
μ
(
u
)
\bar{\mu} := \mathbb{E}_{\mu} = \int_{u \in S} u \mu(u)
μˉ:=Eμ=∫u∈Suμ(u)处取得最小值。
证明: 对于任意的
x
∈
S
x \in S
x∈S,都有:
E
U
∼
μ
[
Div
ψ
(
U
,
x
)
]
−
E
U
∼
μ
[
Div
ψ
(
U
,
μ
ˉ
)
]
=
E
U
∼
μ
[
ψ
(
U
)
−
ψ
(
x
)
−
<
∇
ψ
(
x
)
,
U
−
x
>
−
ψ
(
U
)
+
ψ
(
μ
ˉ
)
+
<
∇
ψ
(
μ
ˉ
)
,
U
−
μ
ˉ
>
]
=
ψ
(
μ
ˉ
)
−
ψ
(
x
)
+
x
T
∇
ψ
(
x
)
−
μ
ˉ
T
∇
ψ
(
μ
ˉ
)
+
E
U
∼
μ
[
−
U
T
∇
ψ
(
x
)
+
U
T
∇
ψ
(
μ
ˉ
)
]
=
ψ
(
μ
ˉ
)
−
ψ
(
x
)
−
(
μ
ˉ
−
x
)
T
∇
ψ
(
x
)
+
μ
ˉ
T
∇
ψ
(
x
)
−
μ
ˉ
T
∇
ψ
(
μ
ˉ
)
−
(
E
U
∼
μ
[
U
]
)
T
∇
ψ
(
x
)
+
(
E
U
∼
μ
[
U
]
)
T
∇
ψ
(
μ
ˉ
)
=
ψ
(
μ
ˉ
)
−
ψ
(
x
)
−
(
μ
ˉ
−
x
)
T
∇
ψ
(
x
)
=
Div
ψ
(
μ
ˉ
,
x
)
.
(11)
\begin{aligned} & \mathbb{E}_{U \sim \mu} \left[ \text{Div}_{\psi} (U, x) \right] - \mathbb{E}_{U \sim \mu} \left[ \text{Div}_{\psi} (U, \bar{\mu}) \right] \\ =& \mathbb{E}_{U \sim \mu} \left[ \psi(U) - \psi(x) - \left< \nabla \psi (x), U - x \right> - \psi(U) + \psi(\bar{\mu}) + \left< \nabla \psi (\bar{\mu}), U - \bar{\mu} \right> \right] \\ =& \psi(\bar{\mu}) - \psi(x) + x^T \nabla \psi (x) - \bar{\mu}^T \nabla \psi (\bar{\mu}) + \mathbb{E}_{U \sim \mu} \left[ - U^T \nabla \psi (x) + U^T \nabla \psi (\bar{\mu}) \right] \\ =& \psi(\bar{\mu}) - \psi(x) - (\bar{\mu} - x)^T \nabla \psi (x) + \bar{\mu}^T \nabla \psi (x)- \bar{\mu}^T \nabla \psi (\bar{\mu}) \\ &- (\mathbb{E}_{U \sim \mu} \left[ U \right])^T \nabla \psi (x) + (\mathbb{E}_{U \sim \mu} \left[ U \right])^T \nabla \psi (\bar{\mu})\\ =& \psi(\bar{\mu}) - \psi(x) - (\bar{\mu} - x)^T \nabla \psi (x) \\ =& \text{Div}_{\psi} (\bar{\mu}, x). \end{aligned} \tag{11}
=====EU∼μ[Divψ(U,x)]−EU∼μ[Divψ(U,μˉ)]EU∼μ[ψ(U)−ψ(x)−⟨∇ψ(x),U−x⟩−ψ(U)+ψ(μˉ)+⟨∇ψ(μˉ),U−μˉ⟩]ψ(μˉ)−ψ(x)+xT∇ψ(x)−μˉT∇ψ(μˉ)+EU∼μ[−UT∇ψ(x)+UT∇ψ(μˉ)]ψ(μˉ)−ψ(x)−(μˉ−x)T∇ψ(x)+μˉT∇ψ(x)−μˉT∇ψ(μˉ)−(EU∼μ[U])T∇ψ(x)+(EU∼μ[U])T∇ψ(μˉ)ψ(μˉ)−ψ(x)−(μˉ−x)T∇ψ(x)Divψ(μˉ,x).(11)
上式是非负的,当且仅当
x
=
μ
ˉ
x = \bar{\mu}
x=μˉ时为0。
11.
毕达哥拉斯定理(三点定理)。如果
x
∗
x^{*}
x∗是
x
0
x_0
x0在凸集
C
∈
Ω
C \in \Omega
C∈Ω的投影:
x
∗
=
arg min
x
∈
C
Div
ψ
(
x
,
x
0
)
.
(12)
x^{*} = \argmin_{x \in C} \text{Div}_{\psi} (x, x_0). \tag{12}
x∗=x∈CargminDivψ(x,x0).(12)
那么
Div
ψ
(
y
,
x
0
)
≥
Div
ψ
(
y
,
x
∗
)
+
Div
ψ
(
x
∗
,
x
0
)
.
(13)
\text{Div}_{\psi} (y, x_0) \geq \text{Div}_{\psi} (y, x^{*}) + \text{Div}_{\psi} (x^{*}, x_0). \tag{13}
Divψ(y,x0)≥Divψ(y,x∗)+Divψ(x∗,x0).(13)
如果是欧式的情况下,上式的意味着
∠
y
x
∗
x
0
\angle y x^{*} x_0
∠yx∗x0是钝角。更为一般的情况,为引理1。
引理1: 假设
L
L
L是一个合适的函数(proper convex function),其定义域是一个包含
C
C
C的开集。
L
L
L不一定是可微的。令
x
∗
x^{*}
x∗为:
x
∗
=
arg min
x
∈
C
{
L
(
x
)
+
Div
ψ
(
x
,
x
0
)
}
.
(14)
x^{*} = \argmin_{x \in C} \{ L(x) + \text{Div}_{\psi} (x, x_0) \}. \tag{14}
x∗=x∈Cargmin{L(x)+Divψ(x,x0)}.(14)
那么对于任意的
y
∈
C
y \in C
y∈C,有
L
(
y
)
+
Div
ψ
(
y
,
x
0
)
≥
L
(
x
∗
)
+
Div
ψ
(
x
∗
,
x
0
)
+
Div
ψ
(
y
,
x
∗
)
.
(15)
L(y) + \text{Div}_{\psi} (y, x_0) \geq L(x^{*}) + \text{Div}_{\psi} (x^{*}, x_0) + \text{Div}_{\psi} (y, x^{*}). \tag{15}
L(y)+Divψ(y,x0)≥L(x∗)+Divψ(x∗,x0)+Divψ(y,x∗).(15)
式(12)是
L
=
0
L=0
L=0的特殊情况。这个性质是分析Bregman散度相关优化算法的关键。
证明: 记
J
(
x
)
=
L
(
x
)
+
Div
ψ
(
x
,
x
0
)
J(x) = L(x) + \text{Div}_{\psi} (x, x_0)
J(x)=L(x)+Divψ(x,x0),因为
x
∗
x^{*}
x∗是
J
J
J在
C
C
C上的极小值点,因此存在次梯度(subgradient)
d
∈
∂
J
(
x
∗
)
d \in \partial J(x^{*})
d∈∂J(x∗)(这里使用次梯度是因为
L
L
L不一定可微),使得
<
d
,
x
−
x
∗
>
≥
0
,
x
∈
C
.
(16)
\left< d, x - x^{*} \right> \geq 0, \quad x \in C. \tag{16}
⟨d,x−x∗⟩≥0,x∈C.(16)
因为
∂
J
(
x
∗
)
=
{
g
+
∇
x
=
x
∗
Div
ψ
(
x
,
x
0
)
:
g
∈
∂
L
(
x
∗
)
}
=
{
g
+
∇
ψ
(
x
∗
)
−
∇
ψ
(
x
0
)
:
g
∈
∂
L
(
x
∗
)
}
.
(17)
\begin{aligned} \partial J(x^{*}) &= \{ g + \nabla_{x = x^{*}} \text{Div}_{\psi} (x, x_0) : g \in \partial L(x^{*})\} \\ &= \{ g + \nabla \psi (x^{*}) - \nabla \psi (x_0) : g \in \partial L(x^{*})\}. \end{aligned} \tag{17}
∂J(x∗)={g+∇x=x∗Divψ(x,x0):g∈∂L(x∗)}={g+∇ψ(x∗)−∇ψ(x0):g∈∂L(x∗)}.(17)
因此,必然存在一个次梯度
g
∈
∂
L
(
x
∗
)
g \in \partial L(x^{*})
g∈∂L(x∗)使得:
<
g
+
∇
ψ
(
x
∗
)
−
∇
ψ
(
x
0
)
,
x
−
x
∗
>
≥
0
,
x
∈
C
.
(18)
\left< g + \nabla \psi (x^{*}) - \nabla \psi (x_0), x - x^{*} \right> \geq 0, \quad x \in C. \tag{18}
⟨g+∇ψ(x∗)−∇ψ(x0),x−x∗⟩≥0,x∈C.(18)
对于任意的
y
∈
C
y \in C
y∈C,根据次梯度的性质有:
L
(
y
)
≥
次
梯
度
性
质
L
(
x
∗
)
+
<
g
,
y
−
x
∗
>
≥
式
(
18
)
L
(
x
∗
)
+
<
∇
ψ
(
x
0
)
−
∇
ψ
(
x
∗
)
,
y
−
x
∗
>
=
分
凑
项
L
(
x
∗
)
−
<
∇
ψ
(
x
0
)
,
x
∗
−
x
0
>
+
ψ
(
x
∗
)
−
ψ
(
x
0
)
+
<
∇
ψ
(
x
0
)
,
y
−
x
0
>
−
ψ
(
y
)
+
ψ
(
x
0
)
−
<
∇
ψ
(
x
∗
)
,
y
−
x
∗
>
+
ψ
(
y
)
−
ψ
(
x
∗
)
=
L
(
x
∗
)
+
Div
ψ
(
x
∗
,
x
0
)
−
Div
ψ
(
y
,
x
0
)
+
Div
ψ
(
y
,
x
∗
)
.
(19)
\begin{aligned} L(y) \overset{次梯度性质}{\geq}& L(x^{*}) + \left< g, y - x^{*} \right> \\ \overset{式(18)}{\geq}& L(x^{*}) + \left< \nabla \psi (x_0) - \nabla \psi (x^{*}), y - x^{*} \right> \\ \overset{分凑项}{=}& L(x^{*}) - \left< \nabla \psi (x_0), x^{*} - x_0 \right> + \psi (x^{*}) - \psi (x_0) \\ &+ \left< \nabla \psi (x_0), y - x_0 \right> - \psi (y) + \psi (x_0) \\ &- \left< \nabla \psi (x^{*}), y - x^{*} \right> + \psi (y) - \psi (x^{*}) \\ =& L(x^{*}) + \text{Div}_{\psi} (x^{*}, x_0) - \text{Div}_{\psi} (y, x_0) + \text{Div}_{\psi} (y, x^{*}). \end{aligned} \tag{19}
L(y)≥次梯度性质≥式(18)=分凑项=L(x∗)+⟨g,y−x∗⟩L(x∗)+⟨∇ψ(x0)−∇ψ(x∗),y−x∗⟩L(x∗)−⟨∇ψ(x0),x∗−x0⟩+ψ(x∗)−ψ(x0)+⟨∇ψ(x0),y−x0⟩−ψ(y)+ψ(x0)−⟨∇ψ(x∗),y−x∗⟩+ψ(y)−ψ(x∗)L(x∗)+Divψ(x∗,x0)−Divψ(y,x0)+Divψ(y,x∗).(19)
将
Div
ψ
(
y
,
x
0
)
\text{Div}_{\psi} (y, x_0)
Divψ(y,x0)移动到不等式左边,完成证明。