Bregman Divergence

最新推荐文章于 2022-01-09 17:22:36 发布

青山白云间

最新推荐文章于 2022-01-09 17:22:36 发布

阅读量1.1k

点赞数

分类专栏：优化算法文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_35505731/article/details/107270888

版权

优化算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Bregman Divergence

翻译自 Bregman Divergence and Mirror Descent

动机

将欧几里得距离的平方概括为一类距离，这些距离都具有相似的性质。
在机器学习、聚类、指数族等方面有很多应用。

定义1（Bregman divergence） 函数 $\psi : \Omega \rightarrow \reals$ 满足：
a). 严凸
b). 连续可微
c). 定义在一个封闭的凸集 $\Omega$ 上。
那么Bregman散度可以定义为：
$\text{Div}_{\psi} (x, y) = \psi(x) - \psi(y) - \left< \nabla \psi (y), x - y \right>. \tag{1}$
即为 $\psi$ 在 $x$ 处的值与 $\psi$ 在 $y$ 周围的一阶泰勒展开式取 $x$ 的值之间的差。

函数名	$\psi (x)$	函数定义域	$\text{Div}_{\psi} (x, y)$
Squared norm	$\frac{1}{2}x^2$	$(-\infty, +\infty)$	$\frac{1}{2}(x-y)^2$
Shannon entropy	$\log x - x$	$+\infty)$	$\log \frac{x}{y} - x +y$
Bit entropy	$\log x + (1 - x) \log (1 - x)$	$[0, 1]$	$\log \frac{x}{y} + (1 - x) \log \frac{(1 - x)}{(1 - y)}$
Burg entropy	$\log x$	$+\infty)$	$\frac{x}{y} - \log \frac{x}{y} - 1$
Hellinger	$\sqrt{1 - x^2}$	$[- 1, 1]$	$y^2)^{-\frac{1}{2}} - (1 - x^2 )^{\frac{1}{2}}$
$l_p$ quasi-norm	$x^p \quad (0<p<1)$	$+\infty)$	$x^p+pxy^{p-1}-(p-1)y^p$
$l_p$ norm	$\vert x \vert^p \quad (1<p<\infty)$	$(-\infty, +\infty)$	$\vert x \vert^p - p x y^{p-1} \text{sgn}(y) + (p-1) \vert y \vert^p$
Exponential	$\exp(x)$	$(-\infty, +\infty)$	$\exp(x) - \left(x - y + 1 \right) \exp(y)$
Hellinger	$\frac{1}{x}$	$+\infty)$	$\frac{1}{x} + \frac{x}{y^2} - \frac{2}{y}$

例子

欧式距离。令 $\psi(x)=\frac{1}{2}\|x\|^2$ ，则 $\text{Div}_{\psi}(x,y) = \frac{1}{2} \| x - y \|^2$ 。
$\Omega = \{ x \in \reals_{+}^{n} : \sum_{i} x_i = 1 \}$ ，且 $\psi(x) = \sum_{i} x_i \log x_i$ 。那么 $\text{Div}_{\psi}(x,y) = \sum_{i} x_i \log \frac{x_i}{y_i}, x, y \in \Omega$ 。这就是所谓的相对熵，或概率分布 $x$ 和 $y$ 之间的Kullback-Leibler散度。
$l_p$ 范式。令 $\geq 1$ 且 $\frac{1}{p} + \frac{1}{q} = 1$ ， $\psi(x)=\frac{1}{2}\|x\|_q^2$ 。那么 $\text{Div}_{\psi}(x,y) = \frac{1}{2}\|x\|_q^2 + \frac{1}{2}\|y\|_q^2 - \left< x , \nabla \frac{1}{2}\|y\|_q^2 \right>$ 。注意 $\frac{1}{2}\|y\|_q^2$ 不一定是可连续微分的，这就使得这种情况与我们的定义不完全一致。

Properties of Bregman divergence

1. Bregman散度 $\text{Div}_{\psi}(x,y)$ 关于第一个变量 $x$ 是严格凸函数，那么函数 $\psi$ 的严格凸性并不重要。

原文： Strict convexity in the first argument $x$ . Trivial by the strict convexity of $\psi$ .

2. 非负性。 $\forall x, y$ ，有 $\text{Div}_{\psi}(x,y) \geq 0$ ，等号当且仅当 $x = y$ 时取得。不要求严格凸亦成立（Trivial by strict convexity.）。

3. 非对称性。一般情况下 $\text{Div}_{\psi}(x,y) \neq \text{Div}_{\psi}(y,x)$ ，例如KL散度。对称性并不是一直有用。

4. 关于第二变量 $y$ 非凸。令 $\Omega = [1, \infty), \psi(x) = - \log x$ 。那么 $\text{Div}_{\psi}(x,y) = - \log x + \log y + \frac{x-y}{y}$ 。计算其关于 $y$ 的二阶偏导为 $\frac{1}{y^2}(\frac{2x}{y}-1)$ ，当 $2 x < y$ 时为负。

5. 关于 $\psi$ 的线性。对于任意 $a > 0$ ，有 $\text{Div}_{\psi + a \phi}(x,y)= \text{Div}_{\psi}(x,y) + a \text{Div}_{\phi}(x,y)$ 。

6. 关于 $x$ 的梯度。 $\frac{\partial }{ \partial x} \text{Div}_{\psi}(x,y) = \nabla \psi (x) - \nabla \psi (y)$ 。关于 $y$ 的梯度比较棘手，不常用。

7. 广义三角形不等式：
$\begin{aligned} \text{Div}_{\psi}(x,y) + \text{Div}_{\psi}(y,z) &= \psi(x) - \psi(y) - \left< \nabla \psi (y), x - y \right> + \psi(y) - \psi(z) - \left< \nabla \psi (z), y - z \right> \\ &= \text{Div}_{\psi}(x,z) + \left< x - y, \nabla \psi (z) - \nabla \psi (y) \right>. \end{aligned} \tag{2}$

8. 特例，如果 $\psi$ 对于某些范式和模数 $\sigma$ 满足：
$\psi (x) \geq \psi(y) + \left< \nabla \psi(y), x - y\right> + \frac{\sigma}{2} \| x - y \|^2. \tag{3}$
则称 $\psi$ 是 $\sigma$ -强凸函数。需要注意的是，并不需要是欧几里得范式。如果是欧式范式，那么上式条件等价于 $\psi(x) - \frac{\sigma}{2} \| x \|^2$ 是凸函数。比如，KL散度中的 $\psi (x) = \sum_{i} x_i$ 是在 $\Omega = \{ x \in \reals_{+}^{n} : \sum_{i} x_i = 1 \}$ 上 $l_1$ 范式下的1-强凸函数。当 $\psi$ 是 $\sigma$ -强凸函数，有：
$\text{Div}_{\psi}(x,y) \geq \frac{\sigma}{2} \| x - y \|^2. \tag{4}$

证明： 根据定义有 $\text{Div}_{\psi} (x, y) = \psi(x) - \psi(y) - \left< \nabla \psi (y), x - y \right> \geq \frac{\sigma}{2} \| x - y \|^2$ 。

9. 对偶性。假设 $\psi$ 是强凸函数，那么
$(\nabla \psi^{*}) \nabla \psi (x) = x, \qquad \text{Div}_{\psi} (x, y) = \text{Div}_{\psi^{*}} (\nabla \psi (y), \nabla \psi (x)). \tag{5}$
证明： 先证第一个等式。根据：
$\psi^{*}(y) = \sup_{z \in \Omega} \{ \left< z, y \right> - \psi (z) \}. \tag{6}$
$\sup$ 是可以实现的，因为 $\psi$ 是强凸的，且定义域 $\Omega$ 是闭集。如果在 $x$ 处取得最大值，当且仅当 $\nabla \psi (x)$ （令 $\frac{\partial}{\partial z} \left( \left< z, y \right> - \psi (z) \right) = y - \nabla \psi (z) =0$ 即得）。因此
$\psi^{*}(y) + \psi (y) = \left< x, y \right> \quad \Leftrightarrow \quad y = \nabla \psi (x). \tag{7}$
因为 $\psi = \psi^{**}$ ，因此 $\psi^{*}(y) + \psi^{**} (y) = \left< x, y \right>$ ，也就是说
$\psi^{**}(y) = \sup_{z \in \Omega} \{ \left< z, y \right> - \psi^{*} (z) \} \tag{8}$
在 $y$ 处取得最大值，即 $\nabla^{*} \psi (y)$ 。因此 $(\nabla \psi^{*}) (\nabla \psi (x) ) = \nabla \psi^{*} (y) = x$ ，证毕。

再证第二等式。根据式(6)有 $\psi^{*}( \nabla \psi (y) ) = \sup_{z \in \Omega} \{ \left< z, \nabla \psi (y) \right> - \psi (z) \}$ ，同样的，令 $\frac{\partial}{\partial z} \left( \left< z, \nabla \psi (y) \right> - \psi (z) \right) =0$ ，得到 $\psi^{*}( \nabla \psi (y) ) = \left< y, \nabla \psi (y) \right> - \psi (y)$ 。同理有 $\psi^{*}( \nabla \psi (x) ) = \left< x, \nabla \psi (x) \right> - \psi (x)$ 。那么
$\begin{aligned} \text{Div}_{\psi^{*}} (\nabla \psi (y), \nabla \psi (x)) &= \psi^{*}(\nabla \psi (y)) - \psi^{*}(\nabla \psi (x)) - \left< \nabla \psi^{*} (\nabla \psi (x)), \nabla \psi (y) - \nabla \psi (x) \right> \\ & = \left< y, \nabla \psi (y) \right> - \psi (y) - \left< x, \nabla \psi (x) \right> + \psi (x) - \left< x, \nabla \psi (y) - \nabla \psi (x) \right> \\ &= \left< y, \nabla \psi (y) \right> - \psi (y) - \left< x, \nabla \psi (x) \right> + \psi (x) - \left< x, \nabla \psi (y) \right> + \left< x, \nabla \psi (x) \right> \\ &= \psi (x) - \psi (y) - \left< x - y, \nabla \psi (y) \right>\\ &= \text{Div}_{\psi} (x, y). \end{aligned} \tag{9}$

10. 分布的平均值。假设 $U$ 是开集 $S$ 服从 $\mu$ 分布的随机变量，那么
$\min_{x \in S} \mathbb{E}_{U \sim \mu} \left[ \text{Div}_{\psi} (U, x) \right]. \tag{10}$
在 $\bar{\mu} := \mathbb{E}_{\mu} = \int_{u \in S} u \mu(u)$ 处取得最小值。

证明： 对于任意的 $\in S$ ，都有：
$\begin{aligned} & \mathbb{E}_{U \sim \mu} \left[ \text{Div}_{\psi} (U, x) \right] - \mathbb{E}_{U \sim \mu} \left[ \text{Div}_{\psi} (U, \bar{\mu}) \right] \\ =& \mathbb{E}_{U \sim \mu} \left[ \psi(U) - \psi(x) - \left< \nabla \psi (x), U - x \right> - \psi(U) + \psi(\bar{\mu}) + \left< \nabla \psi (\bar{\mu}), U - \bar{\mu} \right> \right] \\ =& \psi(\bar{\mu}) - \psi(x) + x^T \nabla \psi (x) - \bar{\mu}^T \nabla \psi (\bar{\mu}) + \mathbb{E}_{U \sim \mu} \left[ - U^T \nabla \psi (x) + U^T \nabla \psi (\bar{\mu}) \right] \\ =& \psi(\bar{\mu}) - \psi(x) - (\bar{\mu} - x)^T \nabla \psi (x) + \bar{\mu}^T \nabla \psi (x)- \bar{\mu}^T \nabla \psi (\bar{\mu}) \\ &- (\mathbb{E}_{U \sim \mu} \left[ U \right])^T \nabla \psi (x) + (\mathbb{E}_{U \sim \mu} \left[ U \right])^T \nabla \psi (\bar{\mu})\\ =& \psi(\bar{\mu}) - \psi(x) - (\bar{\mu} - x)^T \nabla \psi (x) \\ =& \text{Div}_{\psi} (\bar{\mu}, x). \end{aligned} \tag{11}$
上式是非负的，当且仅当 $\bar{\mu}$ 时为0。

11. 毕达哥拉斯定理（三点定理）。如果 $x^{*}$ 是 $x_0$ 在凸集 $\in \Omega$ 的投影：
$x^{*} = \argmin_{x \in C} \text{Div}_{\psi} (x, x_0). \tag{12}$
那么
$\text{Div}_{\psi} (y, x_0) \geq \text{Div}_{\psi} (y, x^{*}) + \text{Div}_{\psi} (x^{*}, x_0). \tag{13}$
如果是欧式的情况下，上式的意味着 $\angle y x^{*} x_0$ 是钝角。更为一般的情况，为引理1。

引理1： 假设 $L$ 是一个合适的函数(proper convex function)，其定义域是一个包含 $C$ 的开集。 $L$ 不一定是可微的。令 $x^{*}$ 为：
$x^{*} = \argmin_{x \in C} \{ L(x) + \text{Div}_{\psi} (x, x_0) \}. \tag{14}$
那么对于任意的 $\in C$ ,有
$\text{Div}_{\psi} (y, x_0) \geq L(x^{*}) + \text{Div}_{\psi} (x^{*}, x_0) + \text{Div}_{\psi} (y, x^{*}). \tag{15}$
式(12)是 $L = 0$ 的特殊情况。这个性质是分析Bregman散度相关优化算法的关键。

证明： 记 $\text{Div}_{\psi} (x, x_0)$ ，因为 $x^{*}$ 是 $J$ 在 $C$ 上的极小值点，因此存在次梯度(subgradient) $\in \partial J(x^{*})$ （这里使用次梯度是因为 $L$ 不一定可微），使得
$\left< d, x - x^{*} \right> \geq 0, \quad x \in C. \tag{16}$

因为
$\begin{aligned} \partial J(x^{*}) &= \{ g + \nabla_{x = x^{*}} \text{Div}_{\psi} (x, x_0) : g \in \partial L(x^{*})\} \\ &= \{ g + \nabla \psi (x^{*}) - \nabla \psi (x_0) : g \in \partial L(x^{*})\}. \end{aligned} \tag{17}$
因此，必然存在一个次梯度 $\in \partial L(x^{*})$ 使得：
$\left< g + \nabla \psi (x^{*}) - \nabla \psi (x_0), x - x^{*} \right> \geq 0, \quad x \in C. \tag{18}$

对于任意的 $\in C$ ，根据次梯度的性质有：
$\begin{aligned} L(y) \overset{次梯度性质}{\geq}& L(x^{*}) + \left< g, y - x^{*} \right> \\ \overset{式(18)}{\geq}& L(x^{*}) + \left< \nabla \psi (x_0) - \nabla \psi (x^{*}), y - x^{*} \right> \\ \overset{分凑项}{=}& L(x^{*}) - \left< \nabla \psi (x_0), x^{*} - x_0 \right> + \psi (x^{*}) - \psi (x_0) \\ &+ \left< \nabla \psi (x_0), y - x_0 \right> - \psi (y) + \psi (x_0) \\ &- \left< \nabla \psi (x^{*}), y - x^{*} \right> + \psi (y) - \psi (x^{*}) \\ =& L(x^{*}) + \text{Div}_{\psi} (x^{*}, x_0) - \text{Div}_{\psi} (y, x_0) + \text{Div}_{\psi} (y, x^{*}). \end{aligned} \tag{19}$
将 $\text{Div}_{\psi} (y, x_0)$ 移动到不等式左边，完成证明。

青山白云间

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Bregman Divergence

Bregman Divergence翻译自 Bregman Divergence and Mirror Descent动机将欧几里得距离的平方概括为一类距离，这些距离都具有相似的性质。在机器学习、聚类、指数族等方面有很多应用。定义1（Bregman divergence）函数ψ:Ω→R\psi : \Omega \rightarrow \realsψ:Ω→R满足：a). 严凸b). 连续可微c). 定义在一个封闭的凸集Ω\OmegaΩ上。那么Bregman散度可以定义为：Div
复制链接

扫一扫