多篇顶会论文看DRO (Distributionally Robust Optimization) 最新进展

©PaperWeekly 原创 · 作者 | 张一帆

学校 | 中科院自动化所博士生

研究方向 | 计算机视觉

常见的算法使用经验风险最小化(ERM)的范式,有一个模型参数为 ,一个损失函数 和数据分布 ,通常情况下我们只能看到训练数据分布 ,那么 ERM 可以写作:

当测试数据集 的时候,ERM 往往性能会大幅度下降。Distributionally Robust Optimization (DRO) 为这个问题提供了一个解决方案,即在一个预先确定的分布族 (uncertainty set) 中,用最糟糕的预期风险替换一个单一分布下的预期风险。

如果 包含了 ,那么 DRO 的目标函数就会成为 上平均损失的上界。然而我们不总是能得到域的分布,即将 划分为多个分布   ,当我们没有 domain 的先验知识的时候,如何去构造 是 DRO 成功的关键,目前大概有如下几种方式:

1. 基于 moment constraint,对数据分布的一阶矩,二阶矩进行约束。这种方法需要从数据中估计一阶矩,二阶矩,目前只能在比较 toy 的数据集上使用;

2. 基于 divergence;

3. 基于 Wasserstein/MMD ball;

4. 基于 coarse-grained mixture models。本文通过几篇高引和最新的顶会文章对 DRO 进行简单介绍。

基于 divergence 的方法

1.1 开篇之作

论文标题:

Kullback-Leibler Divergence Constrained Distributionally Robust Optimization

论文链接:

http://www.optimization-online.org/DB_FILE/2012/11/3677.pdf 

由于年代比较久远,文中使用的 notation 和我们现在的稍有差别,其对 DRO 的定义为:

这里的 是参数集而 § 的数据分布, 作为 uncertainty set。本文第一次采取了如下方法来定义 uncertainty set,其中 是 KL 散度, 是我们对真实数据集的估计。

这里的超参数 控制 了uncertainty set 的大小。我们知道 KL 散度隐式的假设了 相对于 是处处连续的,并且他可以写作:

到现在为止,我们内层的优化目标是概率分布 ,而 并没有在目标函数中出现,这就很难优化。作者采用了 change-of-measure 的技巧,首先我们记 为似然比(likelihood ratio),也称之为迪姆导数(Radon-Nikodym derivative),我们可以轻易的得到 § ,然后使用 change-of-measure 将 KL 散度转化为:

同样地,对目标函数使用 change-of-measure 的技巧,我们可以得到:

这样的话内层优化就从依赖于 的优化问题转化成了对于 的:

因为本文关注于凸优化的场景,也就是说 是凸集, 是凸函数,作者根据一定的假设,直接推出了内层优化的闭式解:

这里的 是 Lagrangian multiplier。内层优化有闭式解意味着什么?意味着我们这个 worst-case distribution 有闭式的概率分布,根据 的定义,我们只需要找到使得内层优化最大的 然后乘上 即可,因此我们可以得到:*

如果我们在外层优化找到了最优的 ,那么他的概率测度可以写作*:

* 这是一个非常有趣的现象,内层优化的最优分布和数据分布 成正比,比例因子为

  • 10
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值