论文阅读笔记【1】：在线凸优化算法Greedy Projection

最新推荐文章于 2024-04-28 09:28:34 发布

聪明勇敢的乔威同学

最新推荐文章于 2024-04-28 09:28:34 发布

阅读量1.6k

点赞数 2

文章标签：算法动态规划机器学习

本文链接：https://blog.csdn.net/qq_42911960/article/details/117840765

版权

基本信息

题目： Online Convex Programming and Generalized Infinitesimal Gradient Ascent
作者： Martin Zinkevich
关键词： 在线凸优化，greedy projection

背景

凸优化是线性规划问题的一般形式，广泛应用在机器学习领域和实际经济问题上。一个凸优化问题包含两个部分，一个是作为定义域的凸集，另一个是作为损失函数的凸函数。本文讨论的是在线凸优化问题（损失函数是互不相同的定义在同一个定义域上的序列），典型的问题有expert problem和network routing。本文新提出的Greedy Projection算法是受到了IGA算法的启发，有简单，通用，有效的特点，作者基于本法还对重复博弈提出了新的GIGA算法。

在线凸优化问题

问题定义： 定义域是一个凸集 $\subseteq \mathbb{R^n}$ ，一个无限序列 $=\{c^1,c^2,\cdots\}$ ，其中 $c^t:F\to \mathbb{R}$ 是凸函数，每一步在选择向量 $x^t$ 后，得到一个损失函数 $c^t$ ，在线凸优化问题目标是找到一个算法，使得选择能达到特定目标。

范数和度量： 定义在 $F$ 上的范数 $\lVert x \rVert = \sqrt{x \cdot x}$ 和度量 $\lVert x-y \rVert$ ，定义可行域的范数
$\lVert F \rVert = \max_{x,y\in F} d(x,y)$
定义损失函数梯度序列的范数
$\lVert \bigtriangledown c \rVert = \max_{x\in F, t\in\{1,2,\cdots\}} \lVert \bigtriangledown c^t(x) \rVert$
前提假设：

定义域 $F$ 是非空的有界闭集
损失函数列的梯度一致有界
能够得到 $\forall c^t \in c$ 在 $\forall x\in F$ 处的梯度值 $\bigtriangledown c^t(x)$
存在函数P，使得对于 $\forall y\in \mathbb{R^n}$ ，有 $P(y)=\arg\min_{x\in F}d(x,y)$ 存在

算法分析

先来看本文中新提出的算法是怎样进行决策的，决策过程如下

Greedy Projection算法：

输入：初始向量 $x^1$ ，学习率序列 $\eta = \{\eta_1,\eta_2,\cdots\}$
输出：决策序列 $\{x^1, x^2, \cdots\}$
迭代格式：

$x^{t+1} = P(x^t -\eta_t\bigtriangledown c^t(x^t))$

要对算法的优劣进行分析，就要先定义针对算法的损失函数，文中称之为regret，

定义regret： 对于算法 $A$ 及其对应的凸优化问题 $(F,\{c^1,c^2,\cdots\})$ ，如果选择的结果是 $\{x^1,x^2,\dots\}$ ，那么截止到时间 $T$ 的算法 $A$ 的损失定义为
$C_A(T) = \sum_{t=1}^{T}c^t(x^t)$
对于一个固定的 $x\in F$ ，那么截止到时间 $T$ 的损失定义为
$C_x(T) = \sum_{t=1}^{T}c^t(x)$
算法 $A$ 的regret定义为
$R_A(T) = C_A(T) - \min_{x\in F}C_x(T)$

regret上界估计： 如果 $\eta_t = t^{-\frac{1}{2}}$ ，Greedy Projection算法的regret有以下不等式成立
$R_G(T) \leq \frac{\lVert F \rVert^2\sqrt{T}}{2} + (\sqrt{T}-\frac{1}{2})\lVert \bigtriangledown c \rVert^2$
从而说明
$\lim_{T\to\infin}\sup \frac{R_G(T)}{T} = 0$

定义动态regret： 序列 $\{x^1,x^2,\cdots,x^T\}$ 的路径长度定义为
$\sum_{i=1}^{T-1}d(x^i,x^{i+1})$
算法输出构成的集合 $\mathbb{A}(T,L) = \{\{x_i\}_{i=1}^T|序列路径长度\leq L\}$ ，算法的动态regret定义为
$R_A(T,L) = C_A(T) - \min_{A'\in \mathbb{A}(T,L)}C_{A'}(T)$

动态regret上界估计：

如果 $\eta$ 固定，Greedy Projection算法的动态regret上界为
$R_G(T,L) \leq \frac{7\lVert F \rVert^2}{4\eta} + \frac{L\lVert F \rVert}{\eta} + \frac{T\eta\lVert\bigtriangledown c \rVert^2}{2}$

应用算法

考察Greedy Projection算法在重复博弈问题中的结果，需要进一步定义什么是重复博弈，以及不同策略的regret。

博弈规则： 重复博弈中第一个玩家的可选操作定义为集合 $A$ （也被称作联合操作）和第二个玩家的可选操作定义为集合 $B$ ，定义效用函数为 $A\times B \longrightarrow \mathbb{R}$ ，

博弈历史： 定义在 $A\times B$ 上的，长度为t的点列记作 $H^t = (A\times B)^t$ ，称为博弈历史，所有博弈历史的全集记作 $H=\cup_{i=1}^\infin H_i$ ，博弈历史 $h\in H$ 的长度记为 $∣ h ∣$ ，博弈历史的效用定义为
$u_{total}(h) = \sum_{i=1}^{\left| h\right|}u(h_{i,1},h_{i,2})$
不行动regret： 假设博弈历史中第二位玩家的策略是不变的，那么如果第一位玩家每次都采取操作 $a$ ，那么与原来的效用差
$R^{*\to a}(h) = u_{total}(h^{*\to a})-u_{total}(h)$
成为不行动 $a$ 的regret，进而定义博弈历史的regret为
$\max_{a\in A}R^{*\to a}(h)$
这样定义的regret只考虑了既成事实，没有考虑根据已经发生的博弈历史来判断对手的策略。所以还需要引进行为和环境这两个概念，

行为： 函数 $\sigma:H\to \Delta(A)$ ，从博弈历史映射到玩家下一个行动的概率分布。

环境： 函数 $\rho：H \to \Delta(B)$ ，从博弈历史映射到下一个环境的下一次行动分布。

针对重复博弈问题，作者给出了如下算法

Generalized Infinitesimal Gradient Ascent

输入：初始向量 $x^1 \in F$ ，学习率序列 $\eta = \{\eta_1, \eta_2, \cdots\}$
输出：决策序列 $\{x^1,x^2,\cdots\}$
迭代格式：
$y_i^{t+1} = x_i^t + \eta_tu(i,h_{t,2}) \\ x^{t+1} = P(y^{t+1})$

聪明勇敢的乔威同学

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
论文阅读笔记【1】：在线凸优化算法Greedy Projection

基本信息题目： Online Convex Programming and Generalized Infinitesimal Gradient Ascent作者： Martin Zinkevich关键词：在线凸优化，greedy projection背景凸优化是线性规划问题的一般形式，广泛应用在机器学习领域和实际经济问题上。一个凸优化问题包含两个部分，一个是作为定义域的凸集，另一个是作为损失函数的凸函数。本文讨论的是在线凸优化问题（损失函数是互不相同的定义在同一个定义域上的序列
复制链接

扫一扫