©PaperWeekly 原创 · 作者 | 张一帆
学校 | 中科院自动化所博士生
研究方向 | 计算机视觉
常见的算法使用经验风险最小化(ERM)的范式,有一个模型参数为 ,一个损失函数 和数据分布 ,通常情况下我们只能看到训练数据分布 ,那么 ERM 可以写作:
当测试数据集 的时候,ERM 往往性能会大幅度下降。Distributionally Robust Optimization (DRO) 为这个问题提供了一个解决方案,即在一个预先确定的分布族 (uncertainty set) 中,用最糟糕的预期风险替换一个单一分布下的预期风险。
如果 包含了 ,那么 DRO 的目标函数就会成为 上平均损失的上界。然而我们不总是能得到域的分布,即将 划分为多个分布 ,当我们没有 domain 的先验知识的时候,如何去构造 是 DRO 成功的关键,目前大概有如下几种方式:
1. 基于 moment constraint,对数据分布的一阶矩,二阶矩进行约束。这种方法需要从数据中估计一阶矩,二阶矩,目前只能在比较 toy 的数据集上使用;
2. 基于 divergence;
3. 基于 Wasserstein/MMD ball;
4. 基于 coarse-grained mixture models。本文通过几篇高引和最新的顶会文章对 DRO 进行简单介绍。
基于
divergence 的方法
1.1 开篇之作
论文标题:
Kullback-Leibler Divergence Constrained Distributionally Robust Optimization
论文链接:
http://www.optimization-online.org/DB_FILE/2012/11/3677.pdf
由于年代比较久远,文中使用的 notation 和我们现在的稍有差别,其对 DRO 的定义为:
这里的 是参数集而 是 的数据分布, 作为 uncertainty set。本文第一次采取了如下方法来定义 uncertainty set,其中 是 KL 散度, 是我们对真实数据集的估计。
这里的超参数 控制 了uncertainty set 的大小。我们知道 KL 散度隐式的假设了 相对于 是处处连续的,并且他可以写作:
到现在为止,我们内层的优化目标是概率分布 ,而 并没有在目标函数中出现,这就很难优化。作者采用了 change-of-measure 的技巧,首先我们记 为似然比(likelihood ratio),也称之为迪姆导数(Radon-Nikodym derivative),我们可以轻易的得到 ,然后使用 change-of-measure 将 KL 散度转化为:
同样地,对目标函数使用 change-of-measure 的技巧,我们可以得到:
这样的话内层优化就从依赖于 的优化问题转化成了对于 的:
因为本文关注于凸优化的场景,也就是说 是凸集, 是凸函数,作者根据一定的假设,直接推出了内层优化的闭式解:
这里的 是 Lagrangian multiplier。内层优化有闭式解意味着什么?意味着我们这个 worst-case distribution 有闭式的概率分布,根据 的定义,我们只需要找到使得内层优化最大的 然后乘上 即可,因此我们可以得到:*
* 这是一个非常有趣的现象,内层优化的最优分布和数据分布 成正比,比例因子为