Mirror Descent

最新推荐文章于 2024-06-27 17:14:30 发布

青山白云间

最新推荐文章于 2024-06-27 17:14:30 发布

阅读量1.6k

点赞数 1

分类专栏：优化算法文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_35505731/article/details/107270932

版权

优化算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Mirror Descent

翻译自 Bregman Divergence and Mirror Descent

文章目录

Mirror Descent

次梯度下降的收敛速度通常取决于问题的维数。假设求函数 $f$ 在 $C$ 上的最小值，那么次梯度下降(subgradient descent)为
$\begin{aligned} x_{k+\frac{1}{2}} &= x_k - \alpha_k g_k, \quad g_k \in \partial f(x_k) \\ x_{k+1} &= \argmin_{x \in C} \frac{1}{2} \| x - x_{k+\frac{1}{2}} \|^2 = \argmin_{x \in C} \frac{1}{2} \| x - \left( x_k - \alpha_k g_k \right) \|^2. \end{aligned} \tag{20}$
可以解释如下。用 $f$ 在 $x_k$ 附近的一阶Taylor展开式近似 $f$ ：
$\approx f(x_k) + \left< g_k, x - x_k \right>. \tag{21}$
然后用 $\frac{1}{2 \alpha_k} \| x - x_k \|^2$ 余项作为惩罚项。因此，更新规则是找到下式的极小值：
$x_{k+1} = \argmin_{x \in C} \left\{ f(x_k) + \left< g_k, x - x_k \right> + \frac{1}{2 \alpha_k} \| x - x_k \|^2 \right\}. \tag{22}$
上式(22)与式(20)等价。为了将方法推广到欧几里得距离以外，可以直接使用Bregman散度作为余项的量度：
$\begin{aligned} x_{k + 1} &= \argmin_{x \in C} \left\{ f(x_k) + \left< g_k, x - x_k \right> + \frac{1}{\alpha_k} \text{Div}_{\psi}(x, x_k) \right\} \\ &= \argmin_{x \in C} \left\{ \alpha_k f(x_k) + \alpha_k \left< g_k, x - x_k \right> + \text{Div}_{\psi}(x, x_k) \right\} \\ &= \argmin_{x \in C} \left\{ \left< \alpha_k g_k, x \right> + \text{Div}_{\psi}(x, x_k) \right\}. \end{aligned} \tag{23}$

镜像梯度的解释

假设约束集 $C$ 是整个空间（即无约束）。那么我们可以用关于 $x$ 的梯度，寻找最优条件：
$\begin{aligned} & \frac{\partial}{\partial x} \left( \left< g_k, x \right> + \frac{1}{\alpha_k} \text{Div}_{\psi}(x, x_k) \right) |_{x = x_{k+1}} = g_k + \frac{1}{\alpha} \left( \nabla \psi(x_{k+1}) - \nabla \psi(x_{k}) \right) = 0 \\ \Leftrightarrow & \nabla \psi(x_{k+1}) = \nabla \psi(x_{k}) - \alpha_k g_k \\ \Leftrightarrow & x_{k+1} = \left( \nabla \psi \right)^{-1} \left( \nabla \psi(x_{k}) - \left< \alpha_k g_k, x \right> \right) = \left( \nabla \psi^{*} \right) \left( \nabla \psi(x_{k}) - \alpha_k g_k \right). \end{aligned} \tag{24}$
如果是KL散度，那么 $\nabla_{x_k(i)} \psi(x_{k}) = \log x_k(i) + 1$ ，更新规则为：
$x_{k+1}(i) = x_{k}(i) \exp \left( - \alpha_k g_k(i) \right). \tag{25}$

收敛速度

回顾在无约束的子梯度下降中，4个步骤：

1. 受单次更新的约束:
$\begin{aligned} \| x_{k+1} - x^{*} \|_2^2 =& \| x_{k} - \alpha_k g_k - x^{*} \|_2^2 \\ =& \| x_{k} - x^{*} \|_2^2 - 2 \alpha_k \left< g_k, x_k - x^{*} \right> + \alpha_k^2 \| g_k \|_2^2 \\ \leq & \| x_{k} - x^{*} \|_2^2 - 2 \alpha_k \left( f(x_k) - f(x^{*}) \right) + \alpha_k^2 \| g_k \|_2^2. \end{aligned} \tag{26}$
上式用到了 $f(x^{*}) \geq f(x_k) + \left< g_k, x^{*} - x_k \right>$ 。

2. 递推求和：
$\| x_{T+1} - x^{*} \|_2^2 \leq \| x_{1} - x^{*} \|_2^2 - 2 \sum_{k=1}^{T} \alpha_k \left( f(x_k) - f(x^{*}) \right) + \sum_{k=1}^{T} \alpha_k^2 \| g_k \|_2^2. \tag{27}$

3. 根据 $\| x_{1} - x^{*} \|_2^2 \leq R^2$ 和 $\| g_k \|_2^2 \leq G^2$ ：
$\sum_{k=1}^{T} \alpha_k \left( f(x_k) - f(x^{*}) \right) \leq R^2 + G^2 \sum_{k=1}^{T} \alpha_k^2. \tag{28}$

4. 记 $\epsilon_k = f(x_k) - f(x^{*})$ ，那么：
$\min_{k \in \{ 1, \cdots, T \}} \epsilon_k \leq \frac{R^2 + G^2 \sum_{k=1}^{T} \alpha_k^2}{2 \sum_{k=1}^{T} \alpha_k}. \tag{29}$
通过选择合适的步长 $\alpha_k = \frac{R}{G\sqrt{T}}$ ,上式右边：
$\frac{R^2 + G^2 \sum_{k=1}^{T} \alpha_k^2}{2 \sum_{k=1}^{T} \alpha_k} = \frac{R^2 + G^2 \sum_{k=1}^{T} \frac{R^2}{G^2T}}{2 \sum_{k=1}^{T} \frac{R}{G\sqrt{T}}} = \frac{RG}{2\sqrt{T}} \tag{30}$
即：
$\min_{k \in \{ 1, \cdots, T \}} \epsilon_k \leq \frac{RG}{\sqrt{T}}. \tag{31}$
假设 $C$ 是simplex，那么 $\leq \sqrt{2}$ 。如果每个梯度 $g_i$ 的每个坐标都是以 $M$ 为上界，那么 $G$ 最多可以是 $M\sqrt{n}$ ，即取决于维度。

从步骤2到4，可以用 $\text{Div}_{\psi}(x^{*},x_{k+1})$ 代替 $x_{k+1} - x^{*} \|_2^2$ 。而步骤1，则需要用到引理1。

假设 $\psi$ 是 $\sigma$ -严格凸函数，将式(23)中 $\alpha_k f(x_k) + \alpha_k \left< g_k, x - x_k \right>$ 的视为引理1中的 $L$ ，那么：
$\begin{aligned} & \alpha_k f(x_k) + \alpha_k \left< g_k, x^{*} - x_k \right> + \text{Div}_{\psi}(x^{*}, x_k) \\ \geq & \alpha_k f(x_k) + \alpha_k \left< g_k, x_{k+1} - x_k \right> + \text{Div}_{\psi}(x_{k+1}, x_{k}) + \text{Div}_{\psi}(x^{*}, x_{k+1}). \end{aligned} \tag{32}$
移项后得：
$\begin{aligned} \text{Div}_{\psi}(x^{*}, x_{k+1}) \leq & \text{Div}_{\psi}(x^{*}, x_k) + \alpha_k \left< g_k, x^{*} - x_{k+1} \right> - \text{Div}_{\psi}(x_{k+1}, x_{k}) \\ = & \text{Div}_{\psi}(x^{*}, x_k) + \alpha_k \left< g_k, x^{*} - x_{k} \right> + \alpha_k \left< g_k, x_{k} - x_{k+1} \right> - \text{Div}_{\psi}(x_{k+1}, x_{k}) \\ \overset{式(4)}{\leq} & \text{Div}_{\psi}(x^{*}, x_k) - \alpha_k \left( f(x_{k}) - f(x^{*})\right) + \alpha_k \left< g_k, x_{k} - x_{k+1} \right> - \frac{\sigma}{2} \| x_{k} - x_{k+1} \|^2 \\ \leq & \text{Div}_{\psi}(x^{*}, x_k) - \alpha_k \left( f(x_{k}) - f(x^{*})\right) + \alpha_k \| g_k \|_{*} \| x_{k} - x_{k+1} \| - \frac{\sigma}{2} \| x_{k} - x_{k+1} \|^2 \\ \leq & \text{Div}_{\psi}(x^{*}, x_k) - \alpha_k \left( f(x_{k}) - f(x^{*}) \right) + \frac{ \alpha_k^2 }{2 \sigma} \| g_{k} \|^2. \end{aligned} \tag{33}$
与式(26)对比，可以将 $x_{k} - x^{*} \|_2^2$ 替换为 $\text{Div}_{\psi}(x^{*}, x_{k})$ 。同样，假设 $\text{Div}_{\psi}(x^{*}, x_{1})$ 界为 $R^2$ ，且 $g_k \|_{*}$ 的界为 $G$ ，其中 $\| \cdot \|_{*}$ 是对偶范数。

为了显示mirror descent的优势，假设 $C$ 是 $n$ 维的simplex，使用kL散度，其中 $\psi$ 是关于 $l_1$ 范数的1-严格凸函数。那么 $l_1$ 范数的对偶范数就是 $l_{\infty}$ 范数。因此，可以用kL散度考虑 $\text{Div}_{\psi}(x^{*}, x_{1})$ 的界为 $\log n$ ，而 $G$ 则上界为 $M$ 。所以，对于 $R G$ 的值，mirror descent比子梯度下降小一个数量级 $O(\sqrt{\frac{n}{\log n}})$ 。

加速1： $f$ 是强凸函数。 我们说关于另一个函数 $\psi$ 和模数 $\lambda$ ， $f$ 是强凸函数，那么满足：
$\geq f(y) + \left< g, x - y \right> + \lambda \text{Div}_{\psi}(x, y) \quad g \in \partial f(y). \tag{34}$

注意，并不要求 $f$ 是可微的。那么式(33)可以增加强凸的条件：
$\begin{aligned} \text{Div}_{\psi}(x^{*}, x_{k+1}) \leq & \text{Div}_{\psi}(x^{*}, x_k) + \alpha_k \left< g_k, x^{*} - x_{k+1} \right> - \text{Div}_{\psi}(x_{k+1}, x_{k}) \\ = & \text{Div}_{\psi}(x^{*}, x_k) + \alpha_k \left< g_k, x^{*} - x_{k} \right> + \alpha_k \left< g_k, x_{k} - x_{k+1} \right> - \text{Div}_{\psi}(x_{k+1}, x_{k}) \\ \overset{\psi强凸,式(4)}{\leq} & \text{Div}_{\psi}(x^{*}, x_k) - \alpha_k \left( f(x_{k}) - f(x^{*}) + \lambda \text{Div}_{\psi}(x^{*}, x_{k}) \right) + \alpha_k \left< g_k, x_{k} - x_{k+1} \right> - \frac{\sigma}{2} \| x_{k} - x_{k+1} \|^2 \\ \leq & \text{Div}_{\psi}(x^{*}, x_k) - \alpha_k \left( f(x_{k}) - f(x^{*}) + \lambda \text{Div}_{\psi}(x^{*}, x_{k}) \right) + \alpha_k \| g_k \|_{*} \| x_{k} - x_{k+1} \| - \frac{\sigma}{2} \| x_{k} - x_{k+1} \|^2 \\ \leq & (1 - \lambda \alpha_k ) \text{Div}_{\psi}(x^{*}, x_k) - \alpha_k \left( f(x_{k}) - f(x^{*}) \right) + \frac{ \alpha_k^2 }{2 \sigma} \| g_{k} \|_{*}^2. \end{aligned} \tag{35}$

记 $\delta_{k} = \text{Div}_{\psi}(x^{*}, x_k)$ ，令 $\alpha_k = \frac{1}{\lambda k}$ ，那么上式有：
$\begin{aligned} & \delta_{k+1} \leq \frac{k-1}{k} \delta_{k} - \frac{1}{\lambda k} \epsilon_{k} + \frac{G^2}{2 \sigma \lambda^2 k^2} \\ \Rightarrow & k \delta_{k+1} \leq (k-1) \delta_{k} - \frac{1}{\lambda} \epsilon_{k} + \frac{G^2}{2 \sigma \lambda^2 k}. \end{aligned} \tag{36}$
递推求和有：
$\begin{aligned} & T \delta_{T+1} \leq - \frac{1}{\lambda} \sum_{k=1}^{T} \epsilon_{k} + \frac{G^2}{2 \sigma \lambda^2} \sum_{k=1}^{T} \frac{1}{k}. \\ \Rightarrow & \min_{i \in \{ 1,\cdot, T \}} \epsilon_{k} \leq \frac{G^2}{2 \sigma \lambda } \frac{1}{T} \sum_{k=1}^{T} \frac{1}{k} \leq \frac{G^2}{2 \sigma \lambda } \frac{O(\log T)}{T}. \end{aligned} \tag{37}$

加速2： $f$ 的梯度Lipschitz连续。 如果函数 $f$ 的梯度是Lipschitz连续，那么存在 $L > 0$ 使得：
$\| \nabla f(x) - \nabla f(y) \|_{*} \leq L \| x - y \|, \quad \forall x, y. \tag{38}$
有时候我们直接说 $f$ 是光滑的。上式等价于：
$\leq f(y) + \left< \nabla f(y), x - y \right> + \frac{L}{2} \| x - y \|^2. \tag{39}$
现在考虑式(33)中的 $\left< g_k, x^{*} - x_{k+1} \right>$ 的界：
$\begin{aligned} \left< g_k, x^{*} - x_{k+1} \right> =& \left< g_k, x^{*} - x_{k} \right> + \left< g_k, x_{k} - x_{k+1} \right> \\ \leq & f(x^{*}) - f(x_k) + \frac{L}{2} \| x^{*} - x_k \|^2 + f(x_{k}) - f(x_{k+1}) + \frac{L}{2} \| x_{k} - x_{k+1} \|^2 \\ = & f(x^{*}) - f(x_{k+1}) + \frac{L}{2} \| x_{k} - x_{k+1} \|^2. \end{aligned} \tag{40}$
将其代入式(33)有：
$\begin{aligned} \text{Div}_{\psi}(x^{*}, x_{k+1}) \leq & \text{Div}_{\psi}(x^{*}, x_k) + \alpha_k \left( f(x^{*}) - f(x_{k+1}) + \frac{L}{2} \| x_{k} - x_{k+1} \|^2 \right) - \text{Div}_{\psi}(x_{k+1}, x_{k}) \\ \overset{\psi强凸,式(4)}{\leq}& \text{Div}_{\psi}(x^{*}, x_k) + \alpha_k \left( f(x^{*}) - f(x_{k+1}) + \frac{L}{2} \| x_{k} - x_{k+1} \|^2 \right) - \frac{\sigma}{2} \| x_{k} - x_{k+1} \|^2. \end{aligned} \tag{41}$
令 $\alpha_k = \frac{\sigma}{L}$ ，有：
$\text{Div}_{\psi}(x^{*}, x_{k+1}) \leq \text{Div}_{\psi}(x^{*}, x_k) - \frac{\sigma}{L} \left( f(x_{k+1}) - f(x^{*}) \right). \tag{42}$
递推之：
$\min_{k \in \{2,\cdots, T+1\}} f(x_k) - f(x^{*}) \leq \frac{L \text{Div}_{\psi}(x^{*}, x_1)}{\sigma T} \leq \frac{L R^2}{\sigma T}. \tag{43}$
这时候的收敛速度为 $O(\frac{1}{T})$ ，如果使用像Nesterov的技术，可以达到 $O(\frac{1}{T^2})$ 。可以使用引理1证明，我们称之为加速近似梯度法(accelerated proximal gradient method, APGM)。

1 组合目标函数

假设目标函数为 $h (x) = f (x) + r (x)$ ，其中 $f$ 是光滑的，而 $r (x)$ 是simple的，比如 $x \|_1$ 。如果直接使用上面的优化方式，可以得到收敛速度为 $O(\frac{1}{\sqrt{T}})$ ，因为 $h$ 不是光滑的。我们希望能够获得光滑时的收敛速度 $O(\frac{1}{T})$ 是可以办到的，因为 $r (x)$ 是简单的函数，只需要扩展式(23)如下：
$\begin{aligned} x_{k + 1} &= \argmin_{x \in C} \left\{ f(x_k) + \left< g_k, x - x_k \right> + r(x) + \frac{1}{\alpha_k} \text{Div}_{\psi}(x, x_k) \right\} \\ &= \argmin_{x \in C} \left\{ \alpha_k f(x_k) + \alpha_k \left< g_k, x - x_k \right> + r(x) + \text{Div}_{\psi}(x, x_k) \right\} \\ &= \argmin_{x \in C} \left\{ \left< \alpha_k g_k, x \right> + r(x) + \text{Div}_{\psi}(x, x_k) \right\}. \end{aligned} \tag{44}$
这里我们只采用了 $f$ 在 $x_k$ 附近的一阶近似，不考虑 $r (x)$ 。假设这个近似操作可以有效地计算，那么我们就可以证明上述的速率都能延续。

这里考虑更为一般的情况，即 $f$ 是非光滑或者强凸的，如果 $f$ 的梯度是Lipschitz连续，依然能够获得 $O(\frac{1}{T^2})$ 的收敛速度。

将 $\alpha_k f(x_k) + \alpha_k \left< g_k, x - x_k \right> + r(x)$ 视作引理1中的 $L$ ，那么有：
$\begin{aligned} & \alpha_k f(x_k) + \alpha_k \left< g_k, x^{*} - x_k \right> + r(x^{*}) + \text{Div}_{\psi}(x^{*}, x_k) \\ \geq & \alpha_k f(x_k) + \alpha_k \left< g_k, x_{k+1} - x_k \right> + r(x_{k+1}) + \text{Div}_{\psi}(x_{k+1}, x_k) + \text{Div}_{\psi}(x^{*}, x_{k+1}). \end{aligned} \tag{45}$
那么，同式(33),有：
$\begin{aligned} \text{Div}_{\psi}(x^{*}, x_{k+1}) \leq & \text{Div}_{\psi}(x^{*}, x_k) + \alpha_k \left< g_k, x^{*} - x_{k+1} \right> + \alpha_k \left( r(x^{*}) - r(x_{k+1}) \right) - \text{Div}_{\psi}(x_{k+1}, x_{k}) \\ \leq & \cdots \\ \leq & \text{Div}_{\psi}(x^{*}, x_k) - \alpha_k \left( f(x_{k}) + r(x_{k+1}) - f(x^{*}) - f(r(x^{*}) ) \right) + \frac{ \alpha_k^2 }{2 \sigma} \| g_{k} \|^2. \end{aligned} \tag{46}$
记 $\delta_k = \text{Div}_{\psi}(x^{*}, x_k)$ ，那么：
$f(x_{k}) + r(x_{k+1}) - f(x^{*}) - f(r(x^{*}) \leq \frac{1}{\alpha_k} ( \delta_k - \delta_{k+1} ) + \frac{ \alpha_k }{2 \sigma} \| g_{k} \|_{*}^2. \tag{47}$
累加求和得到：
$\begin{aligned} & r(x_{T+1}) - r(x_1) + \sum_{k=1}^{T} \left( h(x_k) - h(x^{*}) \right) \\ \leq & \frac{\delta_1}{\alpha_1} + \sum_{k=2}^{T} \delta_k \left( \frac{1}{\alpha_k} - \frac{1}{\alpha_{k-1}} \right) - \frac{\delta_{T+1}}{\alpha_T} + \frac{ G^2 }{2 \sigma} \sum_{k=1}^{T} \alpha_k \\ \leq & R^2 \left( \frac{1}{\alpha_1} + \sum_{k=2}^{T} \left( \frac{1}{\alpha_k} - \frac{1}{\alpha_{k-1}} \right) \right) + \frac{ G^2 }{2 \sigma} \sum_{k=1}^{T} \alpha_k \\ = & \frac{R^2}{\alpha_T} + \frac{ G^2 }{2 \sigma} \sum_{k=1}^{T} \alpha_k. \end{aligned} \tag{48}$
假设选择 $x_1 = \argmin_{x} r(X)$ ，那么有 $r(x_{T+1}) - r(x_1) \geq 0$ 。令 $\alpha_k = \frac{R}{G} \sqrt{\frac{\sigma}{k}}$ ，则有：
$\sum_{k=1}^{T} \left( h(x_k) - h(x^{*}) \right) \leq \frac{RG}{\sqrt{\sigma}} \left( \sqrt(T) + \frac{1}{2} \sum_{k=1}^{T} \frac{1}{\sqrt{k}} \right) = \frac{RG}{\sqrt{\sigma}} O(\sqrt{T}). \tag{49}$
因此 $\min_{k=1,\cdots,T} \{ h(x_k) - h(x^{*}) \}$ 的收敛速度为 $O(\frac{RG}{\sqrt{\sigma}T})$ 。

2 在线学习

在这里插入图片描述

上图是在线学习算法。玩家在线学习的目的就是尽量减少遗憾，使得可能的损失 $\sum_{k}f_k (x)$ 在所有可能的 $x$ 上最小：
$\text{Regret} = \sum_{k=1}^Tf_k (x_k) - \min_{x} \sum_{k=1}^{T} f_k (x). \tag{50}$

需要注意的是，没有假设对手如何选 $f_k$ ，可以对立。在第 $k$ 次迭代获得 $f_k$ 后，使用mirror descent对 $f_k$ 进行更新获得 $x_{k+1}$ ：
$x_{k+1} = \argmin_{x \in C} \left\{ f_k(x_k) + \left< g_k, x - x_k \right> + \frac{1}{\alpha_k} \text{Div}(x, x_k) \right\}, \quad g_k \in \partial f_x (x_k). \tag{51}$
可以推得regret有界。由式(33)有：
$f_k(x_k) - f_k(x^{*}) \leq \frac{1}{\alpha_k} \left( \text{Div}(x^{*}, x_k) - \text{Div}(x^{*}, x_{k+1}) \right) + \frac{\alpha_k}{2 \sigma} \| g_k \|_{*}^{2}. \tag{52}$
从 $k = 1$ 开始累加，同式(48)和式(49)：
$\sum_{k=1}^{T} \left( f_k(x_k) - f_k(x^{*}) \right)\leq \frac{RG}{\sqrt{\sigma}} O(\sqrt{T}). \tag{53}$
所以，regret的是以 $O(\sqrt{T})$ 的速度增长。

$f$ 是强凸函数 将 $f_k$ 代替式(35)中的 $f$ ，得到regret的界为 $O(\log T)$ 。

$f$ 的梯度是Lipschitz连续 式(43)的结果无法推广到在线学习的情况，如果用 $f_k$ 代替 $f$ ，那么会得到等式右边有 $f_k(x_{k+1}) - f_k (x^{*})$ 。递推求和无法得到regret的界。因此，梯度的Lipschitz连续无法保证regret的界为 $O(\log T)$ 。

组合目标函数 在在线设定中，玩家和对手都有 $r (x)$ ，对手在每次迭代时改变 $f_k(x)$ 。每次迭代的目标函数是 $h_k(x_k) = f_k(x_k) + r(x_k)$ 。更新规则为：
$x_{k+1} = \argmin_{x \in C} \left\{ f_k(x_k) + \left< g_k, x - x_k \right> + r(x) + \frac{1}{\alpha_k} \text{Div}(x, x_k) \right\}, \quad g_k \in \partial f_x (x_k). \tag{54}$
那么式(47)变为：
$f_k(x_{k}) + r(x_{k+1}) - f_k(x^{*}) - f_k(r(x^{*}) \leq \frac{1}{\alpha_k} ( \delta_k - \delta_{k+1} ) + \frac{ \alpha_k }{2 \sigma} \| g_{k} \|_{*}^2. \tag{55}$
虽然我们这里用的是 $r(x_{k+1})$ ，而不是 $r(x_k)$ ，但这是没有问题的，因为 $r$ 不会通过迭代而改变。
选择 $x_1 = \argmin_{x} r(x)$ ，同式(48,49)有：
$\sum_{k=1}^{T} \left( h_k(x_k) - h_k(x^{*}) \right) \leq \frac{G}{\sqrt{\sigma}} O(\sqrt{T}). \tag{56}$
因此，有 $O(\sqrt{T})$ 。

当 $f_k$ 为强凸时，我们可以得到组合情况下的 $O(\log T)$ regret。但是，同上面一样， $f$ 梯度的Lipschitz连续无法保证regret的界为 $O(\log T)$ 。

3 随机优化

让我们考虑优化一个函数，它的期望值形式为
$\min_{x} F(x) := \mathbb{E}_{w \sim p} [ f(x; w) ], \tag{57}$
其中 $p$ 是 $w$ 的分布。这其中包含了很多机器学习模型。比如SVM的目标函数为：
$\frac{1}{m} \sum_{i=1}^{m} \max \left\{ 0, 1 - c_i \left< a_i, x \right> + \frac{\lambda}{2} \| x \|^2 \right\}. \tag{58}$
它可以解释成式(57)， $w$ 是在 $\{ 1, 2, \cdots, m \}$ 上的均匀分布，例如 $\frac{1}{m}$ ：
$\max \left\{ 0, 1 - c_i \left< a_i, x \right> \right\} + \frac{\lambda}{2} \| x \|^2. \tag{59}$
当 $m$ 较大时，计算 $F$ 及其子梯度的成本会很高。所以，一个简单的想法是基于一个随机选择的数据点进行更新。它可以认为是算法1中在线学习的一种特殊情况，步骤4中的对手现在随机选取 $f_k$ 为 $f(x;w_k)$ ， $w_k$ 与 $p$ 无关。理想情况下，我们希望通过使用mirror descent更新， $x_k$ 将逐渐接近 $F (x)$ 的最小化值。直观上这是非常合理的，通过使用 $f_k$ ，我们可以计算出 $F(x_k)$ 的无偏估计值和 $F(x_k)$ 的次梯度(因为 $w_k$ 是从 $p$ 中进行独立同分布采样得到的)。这是随机优化的一种特殊情况，我们在算法2中进行了总结。

在这里插入图片描述

事实上，该方法在更一般的环境下也是有效的。为了简单起见，我们只说对手在迭代 $k$ 时有 $w_k$ 。那么在线学习算法 $\mathcal{A}$ 就是简单的从一个有序集 $\{ w_1, \cdots, w_k \}$ 到 $x_{k+1}$ 的确定性映射。将初始模型 $x_1$ 表示为 $\mathcal{A}(w_0)$ 。那么下面的定理就是在线到批量转换的关键。

定理1 假设在线学习算法 $\mathcal{A}$ 在使用算法1迭代 $k$ 次后regret有上界 $R_k$ 。假设 $w_1, \cdots, w_{T+1}$ 独立同分布采样自 $p$ 。定义 $\hat{x}=\mathcal{A}(w_{j+1}, \cdots, w_{T})$ ，其中 $j$ 均匀随机采样自 $\{ 0, \cdots, T \}$ 。那么：
$\mathbb{E}[F(\hat{x})] - \min_{x} F(x) \leq \frac{R_{T+1}}{T + 1}. \tag{60}$
其中期望值与 $w_1, \cdots, w_{T}$ 和 $j$ 的随机性有关。

相似地，可以用 $\sigma$ 高概率保持边界：
$F(\hat{x}) - \min_{x} F(x) \leq \frac{R_{T+1}}{T + 1} \log \frac{1}{\sigma}. \tag{61}$
其中概率与 $w_1, \cdots, w_{T}$ 和 $j$ 的随机性有关。

证明
$\begin{aligned} \mathbb{E} [F(\hat{x})] =& \mathbb{E}_{j,w_1, \cdots, w_{T+1}} [f(\hat{x}; w_{T+1})] \\ =& \mathbb{E}_{j,w_1, \cdots, w_{T+1}} [f(\mathcal{A}_{w_{j+1}, \cdots, w_{T}}; w_{T+1})] \\ =& \mathbb{E}_{w_1, \cdots, w_{T+1}} \left[ \frac{1}{T + 1} \sum_{j=0}^{T} f(\mathcal{A}_{w_{j+1}, \cdots, w_{T}}; w_{T+1}) \right] \quad (j \text{是均匀随机抽取的}) \\ =& \frac{1}{T + 1} \mathbb{E}_{w_1, \cdots, w_{T+1}} \left[ \sum_{j=0}^{T} f(\mathcal{A}_{w_{1}, \cdots, w_{T-j}}; w_{T+1-j}) \right] \quad (\text{平移指标}) \\ =& \frac{1}{T + 1} \mathbb{E}_{w_1, \cdots, w_{T+1}} \left[ \sum_{s=1}^{T+1} f(\mathcal{A}_{w_{1}, \cdots, w_{s-1}}; w_{s}) \right] \quad (\text{替换变量} s = T+1-j ) \\ \leq & \frac{1}{T + 1} \mathbb{E}_{w_1, \cdots, w_{T+1}} \left[ \min_{x} \sum_{s=1}^{T+1} f(x; w_{s}) + R_{T+1} \right] \quad (\text{利用regret的界}) \\ \leq & \min_{x} \mathbb{E}_{w} [f(x;w)] + \frac{R_{T+1}}{T+1} \quad (\text{最小值的期望值小于期望值的最小值}) \\ = & \min_{x} F(x) + \frac{R_{T+1}}{T + 1}. \end{aligned} \tag{62}$

青山白云间

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
Mirror Descent

Mirror Descent翻译自 Bregman Divergence and Mirror Descent文章目录Mirror Descent1 组合目标函数2 在线学习3 随机优化次梯度下降的收敛速度通常取决于问题的维数。假设求函数fff在CCC上的最小值，那么次梯度下降(subgradient descent)为xk+12=xk−αkgk,gk∈∂f(xk)xk+1=arg min⁡x∈C12∥x−xk+12∥2=arg min⁡x∈C12∥x−(xk−αkgk)∥2.(20)\beg
复制链接

扫一扫