多篇顶会论文看DRO (Distributionally Robust Optimization) 最新进展

最新推荐文章于 2025-03-15 07:30:27 发布

PaperWeekly

最新推荐文章于 2025-03-15 07:30:27 发布

阅读量3.5k

点赞数 10

文章标签：机器学习人工智能深度学习计算机视觉大数据

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/119813811

版权

本文介绍了 Distributionally Robust Optimization (DRO) 的概念，用于解决经验风险最小化在测试集上性能下降的问题。DRO 通过在不确定性集合中寻找最坏情况的预期风险。文章探讨了基于 moment constraint、divergence、Wasserstein 和 MMD ball 的不同方法，并通过具体论文案例详细阐述了这些方法的优化目标、挑战及解决方案。其中，P-DRO 使用生成模型对不确定性集建模，Wasserstein ball 和 MMD ball 方法则通过距离度量来构造不确定性集。此外，文章还讨论了DRO在NLP和计算机视觉领域的应用及其对传统机器学习方法的改进。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 张一帆

学校 | 中科院自动化所博士生

研究方向 | 计算机视觉

常见的算法使用经验风险最小化（ERM）的范式，有一个模型参数为，一个损失函数和数据分布，通常情况下我们只能看到训练数据分布，那么 ERM 可以写作：

当测试数据集的时候，ERM 往往性能会大幅度下降。Distributionally Robust Optimization (DRO) 为这个问题提供了一个解决方案，即在一个预先确定的分布族 (uncertainty set) 中，用最糟糕的预期风险替换一个单一分布下的预期风险。

如果包含了，那么 DRO 的目标函数就会成为上平均损失的上界。然而我们不总是能得到域的分布，即将划分为多个分布，当我们没有 domain 的先验知识的时候，如何去构造是 DRO 成功的关键，目前大概有如下几种方式：

1. 基于 moment constraint，对数据分布的一阶矩，二阶矩进行约束。这种方法需要从数据中估计一阶矩，二阶矩，目前只能在比较 toy 的数据集上使用；

2. 基于 divergence；

3. 基于 Wasserstein/MMD ball；

4. 基于 coarse-grained mixture models。本文通过几篇高引和最新的顶会文章对 DRO 进行简单介绍。

基于 divergence 的方法

1.1 开篇之作

论文标题：

Kullback-Leibler Divergence Constrained Distributionally Robust Optimization

论文链接：

http://www.optimization-online.org/DB_FILE/2012/11/3677.pdf

由于年代比较久远，文中使用的 notation 和我们现在的稍有差别，其对 DRO 的定义为：

这里的是参数集而是的数据分布，作为 uncertainty set。本文第一次采取了如下方法来定义 uncertainty set，其中是 KL 散度，是我们对真实数据集的估计。

这里的超参数控制了uncertainty set 的大小。我们知道 KL 散度隐式的假设了相对于是处处连续的，并且他可以写作：

到现在为止，我们内层的优化目标是概率分布，而并没有在目标函数中出现，这就很难优化。作者采用了 change-of-measure 的技巧，首先我们记为似然比（likelihood ratio），也称之为迪姆导数（Radon-Nikodym derivative），我们可以轻易的得到，然后使用 change-of-measure 将 KL 散度转化为：