Online Convex Optimization

sggdfstz

已于 2023-05-30 22:39:12 修改

阅读量390

点赞数

分类专栏： OCO 文章标签：算法机器学习人工智能

于 2023-05-30 22:28:26 首次发布

本文链接：https://blog.csdn.net/qq_41567540/article/details/130958491

版权

OCO 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

OCO

简单梳理，很粗糙，详细看书！

First-Order Methods for OCO

该类算法的目标是最小化遗憾界，遗憾定义如下:
$\mathrm{Regret}_{T} =\sum_{t=1}^T f_t(\mathbf{x}_t)-\min\limits_{\mathbf{x}\in\mathcal{K}}\sum_{t=1}^T f_t(\mathbf{x}). \tag{1}$

Online Gradient Descent(OGD)

OGD算法是GD算法的在线版本，第一次引入是通过 Zinkevich¹

OGD算法的更新规则如下:
$\mathbf{y}_{t+1} = \mathbf{x}_t - \eta_t \nabla f_t(\mathbf{x}_t) \\ \tag{2} \mathbf{x}_{t+1} = \Pi_{\mathcal{K}}(\mathbf{y}_{t+1})$

通过设置步长序列 $\{ \eta_t = \frac{D}{G \sqrt{t}}, t \in [T] \}$ ，我们有
$Regret_T = \sum_{t=1}^T f_t(\mathbf{x}_t)-\min\limits_{\mathbf{x^*}\in\mathcal{K}}\sum_{t=1}^T f_t(\mathbf{x}^*) \leq \frac{3}{2} G D \sqrt{T} \tag{3}$

简略证明. 让 $x^* \in \arg\min_{x \in \mathcal{K}} \sum^T_{t=1} f_t(\mathbf{x})$ ，定义 $\nabla_t \triangleq \nabla f_t(\mathbf{x}_t)$ ，通过凸函数的凸性（凸函数的一阶判定条件）：
$f_t(\mathbf{x}_t) - f_t(\mathbf{x}^*) \leq \nabla_t^{\top}(\mathbf{x}_t - \mathbf{x}^*) \tag{4}$
和算法的更新规则：
$\left\|\mathbf{x}_{t+1}-\mathbf{x}^{\star}\right\|^2=\left\|\Pi_{\mathcal{K}}\left(\mathbf{x}_t-\eta_t \nabla_\iota\right)-\mathbf{x}^{\star}\right\|^2 \leq\left\|\mathbf{x}_t-\eta_t \nabla_\iota-\mathbf{x}^{\star}\right\|^2 \\ \tag{5} \downarrow \\ 2 \nabla_t^{\top}\left(\mathrm{x}_t-\mathrm{x}^{\star}\right) \leq \frac{\left\|\mathbf{x}_t-\mathbf{x}^{\star}\right\|^2-\left\|\mathbf{x}_{t+1}-\mathbf{x}^{\star}\right\|^2}{\eta_t}+\eta_t G^2$
然后联合公式4和5，取 $1,\dots,T$ 的和，证明完毕。

$\sqrt T)$ 是OGD最好的遗憾界，相关证明可以参考²中3.2节

Online gradient descent for strongly convex functions

对于强凸损失函数，通过设置步长序列 $\eta_t = \frac{1}{\alpha t}$ ，其中 $\alpha$ 是强凸因子，OGD算法有：
$Regret_T \leq \frac{G^2}{2 \alpha}(1+\log{T}) \tag{6}$

简略证明： 类似一般情况下OGD的证明，区别是步长的设置和利用强凸函数的强凸性（强凸函数的一阶判定条件）：
$2\left(f_t\left(\mathbf{x}_t\right)-f_t\left(\mathbf{x}^{\star}\right)\right) \leq 2 \nabla_t^{\top}\left(\mathbf{x}_t-\mathbf{x}^{\star}\right)-\alpha\left\|\mathbf{x}^{\star}-\mathbf{x}_t\right\|^2 \tag{7}$

Stochastic Gradient Descent³ ⁴

随即优化是在线凸优化中一个特殊的场景，其目标是最小化凸域上的凸函数，具体定义如下：
$\min_{x \in \mathcal{K}} f(x). \tag{8}$
同时，与离线场景下不同，该场景下优化器无法获得准确的梯度信息，而是带噪声的梯度，即：
$\mathcal{O}(\mathbf{x}) \triangleq \tilde{\nabla}_\mathbf{x} \ \ \ \ \ \ s.t. \ \ \ \mathbb{E}[\tilde{\nabla}_\mathbf{x}] = \nabla f(\mathbf{x}), \;\; \mathbb{E}[\| \tilde{\nabla}_{\mathbf{x}}\|] \leq G^2 \tag{9}$
也就是说，每次从决策集取一个点 $x$ ，然后获得该点带噪声的梯度，带噪声的梯度的期望是函数 $f$ 在该点的梯度，并且期望的方差是 $G^2$ 。与OGD类似，区别即获得的梯度是带噪声的。该处证明SGD方法的convergence rate，上边是regre bound。

在这里插入图片描述

通过设置步长序列 $\eta_t = \frac{D}{G \sqrt T}$ ，有：
$\mathbf{E}[f(\bar{\mathbf{x}}_T)]\leq\min\limits_{\mathbf{x}^{\star}\in\mathcal{K}}f(\mathbf{x}^{\star})+\frac{3GD}{2\sqrt{T}}. \tag{10}$
可以发现，将 $\min\limits_{\mathbf{x}^{\star}\in\mathcal{K}}f(\mathbf{x}^{\star})$ 移到左边，然后取 $T$ 轮累积和，即可得到regre bound = $O(DG\sqrt T)$

简略证明： 首先定义线性函数 $f_t(x) \triangleq \tilde{\nabla}_t^{\top} \mathbf{x}$ ，然后有
$\begin{aligned} &\mathbf{E}[f(\bar{\mathbf{x}}_T)]-f(\mathbf{x}^*) \\ &\leq\mathbf{E}[\frac{1}{T}\sum\limits_t f(\mathbf{x}_t)]-f(\mathbf{x}^\star)& \text{convexity of}\ f\ \text{(Jensen's inequality)} \\ &\leq\frac{1}{T}\operatorname{E}[\sum_t\nabla f(\mathbf{x}_t)^{\mathsf{T}}(\mathbf{x}_t-\mathbf{x}^{\star})]& \text{convexity again(for last step}\ f(x^*)\ do\ \frac{1}{T} \cdot T \cdot f(x^*) \text{)} \\ &=\frac{1}{T}\mathbf{E}[\sum_t\tilde{\nabla}_t^{\top}(\mathbf{x}_t-\mathbf{x}^{\star})]& \text{noisy gradient estimator} \\ &=\frac{1}{T}\mathbf{E}[\sum_t f_t(\mathbf{x}_t)-f_t(\mathbf{x}^{\star})] & f_t(\mathbf{x}) \text{ definition} \\ &\leq\frac{\operatorname{Regret}_T}{T}& \text{Regret definition} \\ &\leq\frac{3GD}{2\sqrt{T}}& \text{OGD conclusion} \end{aligned} \tag{11}$
Jensen’s inequality⁵

假设凸函数 $f$ ，可行域内的一系列点集 $\{x_1, \dots, x_n\}$ ，若 $\lambda_i \geq 0,\ and \ \sum_i \lambda_i =1$ ，则 $f (x)$ 满足：
$f(\sum_{i=1}^M\lambda_i x_i)\le\sum_{i=1}^M\lambda_if(x_i) \tag{12}$

sggdfstz

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Online Convex Optimization

与OGD类似，区别即获得的梯度是带噪声的。该处证明SGD方法的convergence rate，上边是regre bound。OGD算法是GD算法的在线版本，第一次引入是通过 Zinkevich。轮累积和，即可得到regre bound =是OGD最好的遗憾界，相关证明可以参考。对于强凸损失函数，通过设置步长序列。然后联合公式4和5，证明完毕。也就是说，每次从决策集取一个点。在该点的梯度，并且期望的方差是。，然后获得该点带噪声的梯度，，可行域内的一系列点集。
复制链接

扫一扫