MiRO:面向对抗环境下约束竞价的策略优化框架

本文分享阿里妈妈外投算法团队在黑盒对抗环境下的约束竞价问题上的探索。该工作已经发表在KDD2023,欢迎阅读交流。

论文:Adversarial Constrained Bidding via Minimax Regret Optimization with Causality-Aware Reinforcement Learning

下载(点击↓阅读原文):https://arxiv.org/abs/2306.07106

1. 引言

展示广告是在线广告的主要营销渠道之一。广告主通过DSP提供的程序化广告竞价服务来实现商家各自金融约束下的营销目标优化。近年来,约束下广告竞价算法已经逐步从反馈控制升级为基于强化学习的方法,取得了显著的升级。现有的强化学习方法往往基于经验风险最小化(ERM)原则,假设训练与测试条件独立同分布。然而,这个假设在展示外投的复杂博弈竞争环境中存在较大的局限性。

在外投场景下,广告系统存在多个利益方进行博弈,包括我方广告主、其他参竞广告主和媒体。所有参与方都试图优化自己的利益,这些目标可能彼此冲突。例如,媒体可以从数据中学习参竞者的私有价值分布,在拍卖中设定个性化的保留价格[1],甚至可以直接端到端学习拍卖机制[2]。此外,其他参竞广告主往往采用复杂且未知的竞价策略来优化其利益,这导致我方策略面对的成本分布动态变化,从而影响我方算法的表现。这些案例反映了外投场景下竞价环境的对抗性。

对抗性环境中的广告竞价问题尚未得到充分探索。目前只有一些研究[3,4]针对无约束竞价和已知拍卖机制的对抗竞价问题取得了一些进展。然而,在展示外投场景中,广告主关心投产比约束,同时我们无法确定媒体实际采用的拍卖机制以及竞对方采用的竞价策略。因此,本文旨在解决黑盒对抗环境下的约束竞价问题,该问题不显式地假设环境中的对抗性外部因素。在博弈视角下,相当于竞价环境中存在一个黑盒对抗者,基于其对参竞者的了解按未知的目标扰动竞价环境,例如改变市场动态或价值分布,使得非适应性的竞价策略表现退化。

ba9668243fd0618e9f5a97c16f894be6.png
展示广告系统(其中媒体、我方广告主、竞对广告主之间存在利益博弈)

针对这个问题,阿里妈妈外投算法团队进行了初步探索,相关工作已经发表在KDD2023。由于篇幅限制,本文将着重介绍该方案背后的主要设计思路。

2. 方法

本文聚焦的竞价设定是包含投产比约束的约束竞价(ROI-Constrained Bidding),它可以方便地推广为广告主所关心的多种营销目标。我们延续近期的工作,也采用了基于强化学习的建模方式。为简便起见,我们在此省略了问题形式化和MDP建模的细节,感兴趣的读者可以移步论文。现有的基于强化学习的约束竞价方法通常是基于过去的竞价日志来构建模拟的训练环境。将竞价策略记为,环境记为,其优化目标为最大化训练环境中策略累积收益的期望。

68fa1ee0d7ad0f2b5349ffd1c3b2152b.png

其隐含的假设是训练环境与测试环境的分布是独立同分布的。

然而,由于展示外投场景面对各利益方的博弈,基于训练环境均匀训练的策略在线上面对的环境往往呈现出对抗性。此外,媒体机制和竞对策略的黑盒性质使得我们对于环境的对抗性没有可用的先验知识。针对这样黑盒对抗条件下的约束竞价问题,我们的想法是,不依赖训练测试独立同分布的假设,而是诉诸训练测试对齐。为此,我们必须首先回答以下问题:在对抗性环境的设定下,我们应该如何假设测试分布的性质?给定该性质,我们如何对齐训练和测试分布?

2.1 极小极大遗憾优化(Minimax Regret Optimization)

我们首先考虑严格的对抗设定。在博弈视角下,当对手完全了解我们的竞价策略,那么它可以将环境扰动为该策略表现最差的环境。基于这样一种insight,我们假设在对抗条件下,某种测试环境出现的概率与策略在该环境中表现有多差成正比。策略在该环境中的表现越差,则认为该环境出现的概率越大。由此刻画出对抗设定下,测试环境的分布。

为了对这一想法进行形式化,我们首先介绍策略的性能度量。由于在对抗条件下,不存在一种稳态的最优策略,因此我们采用regret作为策略的性能度量,它衡量的是给定环境下,当前策略与可能的最佳策略在累积收益上的差距:

67c15f98e5cefc294f36d72fda36802b.png

其中,最佳策略实际上是基于离线竞价日志计算出来的最优决策轨迹。

为了表达分布概率与策略性能之间的正比关系,我们采用了基于能量函数的分布(energy-based distribution)表示来刻画测试环境的分布,regret(遗憾)函数作为该分布的自由能(free energy)函数,为温度参数。

0fbe61c5b4df156cd01367a5d269a362.png

在确定测试分布的潜在形式后,接下来我们讨论如何从训练环境集合中识别出与测试分布对齐的训练环境。我们选择Kullback-Leibler(KL)散度来将训练分布投影到一个训练集合。经过推导,我们可以得到一个带有熵约束的遗憾最小化优化目标

7c14f4eef75fe6ec6572b06e5ffc1279.png

对于上式的一种直观解释是,优化过程试图寻找到定义在训练集合上的一个环境分布作为训练分布,策略在这些环境中的表现在期望意义上较差(遗憾最大)。同时该优化过程遵循最大熵原则,因为我们对于黑盒对抗因素没有先验知识。上述优化目标中,温度超参数控制熵约束的强度,直观上反映了对抗性的强度。具体而言,当,所寻找的训练环境是策略表现最差的环境,代表了最严格的对抗性设定。相反,当,所寻找的训练环境即为训练集合上的均匀分布,而完全不考虑对抗性。可见,该优化目标实际上在严格意义的对抗设定和独立同分布设定通过温度超参数做了插值,从而既能一定程度应对对抗环境,又能利用大量的日志数据进行离线训练。

给定上述寻找到的训练分布,我们优化策略使得其最小化遗憾。因此,我们可以得到以下的带有熵约束的极小极大遗憾优化(Minimax Regret Optimization,MiRO)框架:

17a11aa6a77da009558fe8ef0bdcb7ca.png

该框架包含两层优化问题,其内层问题寻找在训练集合中与测试分布潜在对齐的训练分布,其外层问题在找到的训练分布下改进当前策略。与以往广泛采用的经验风险最小化(ERM)相比,ERM假设小的训练经验风险可以推广到小的测试风险,这在对抗条件下往往不成立。我们所提出的MiRO框架在对抗条件下能一定程度保障泛化,因为策略在优化最差情况的遗憾,该目标是测试时遗憾的一个上界。

2.2 可微分博弈(Differentiable Game)

然而,MiRO框架所面对的双层优化问题通常难以求解的。借鉴生成对抗网络(Generative Adversarial Nets)一系列工作,我们的主要思路是将极小极大问题转化为一类“可微分博弈” (differentiable game)[5],这样我们可以借助对偶上升[10]来寻找一个有效的解。

MiRO框架中的regret function对于环境M并非直接可微,这是由于黑盒的对抗环境中,我们无法观测环境中对抗因素的成因。为了克服这个挑战,我们提出重建世界模型的因果结构,从收集的离线环境(竞价日志)中学习对抗性因素的潜在表示。该方法为我们提供了两点便利:

  • 首先,我们可以在学习到的潜在表示空间中搜索训练分布。由于对抗变量 解释了环境的变化,我们将环境在式上式中替换为。

  • 其次,世界模型重建建立了从到奖励的映射,使得regret function可以进行微分。为此,我们可以直接通过基于梯度的优化在MiRO中搜索训练分布。

为了学习对抗因素的表征来反映数据的因果效应,我们首先分析了策略在环境中决策过程中产生的因果结构,然后基于变分信息瓶颈(VIB)[6]进行表征学习。策略在环境中决策所呈现出的因果模型如下图所示,其中有向箭头反映了因果关系。基于这些因果关系,我们构建了一个世界模型来刻画策略与环境的互动,包括:1)表征模型:将决策轨迹映射为对抗变量;2)观测模型;3)隐空间动态模型:在隐空间内的动态转移模型。

8caa9f659e728b41ae4218d2a228f30a.png
策略与环境交互过程对应的因果模型

其中表征模型提供了对抗因素的表示,通过以下的VIB优化目标进行学习:

fe7a1ae36453d6ea937c79ccf91d1106.png

同时,在优化重建目标时,观测模型包含一个奖励估计器的学习来帮助实现MiRO的微分化。其优化目标是:

c3b8d3a0fcd7d8f83db5c1f66c3fe148.png

代表轨迹的累积奖励。

因为对抗变量反映环境中对抗因素的成因,我们因此将MiRO框架优化目标中环境替换为,并引入上述的表征模型和奖励估计器,从而得到以下的可微博弈问题:

05f85ae93e3f9f797dcd9d01670f6404.png

直观上来看,想象教师给学生设计习题,学生完成习题获得提升的过程,上述的可微博弈优化过程在两步之间交替进行优化:

  • teacher step:该步通过寻找当前策略表现不好的训练环境作为训练分布。

  • student step:该步策略会基于所找到的训练分布改进其策略。

588862877ef341cb17c5ee23195df392.png
MiRO优化框架概览

3. 实验

针对上述方案,我们在合成竞价环境和现实竞价环境中验证了所提出的方法的有效性。

我们发现,无论是在对抗条件还是独立同分布条件,MiRO均表现出了优于现有方法的稳健性能。

b3ea7eaa08a54a22d9031a087029107a.png
现实竞价环境中,在对抗条件和iid条件下不同方法的性能比较

我们也进行了消融实验,验证了方法中的每一个组件的有效性。此外,我们也针对媒体可能采用的机制形式进行了分析和实验。

4cdf94936b999dbfffeea189e9f0acc4.png

4. 总结

针对展示外投场景面对的黑盒对抗环境下的约束竞价问题,本文基于训练测试对齐的思路,提出了一个极小极大遗憾优化框架(Minimax Regret Optimization,MiRO)。通过对黑盒环境的因果结构进行建模,MiRO学习了环境的表征以及奖励估计,从而将双层优化问题转化为可解的可微博弈进行交替优化。这种方案可以类比一种teacher-student之间交替迭代的稳健学习范式。在合成和现实数据上的实验表明了我们方法的有效性。

▐ 参考文献

[1] Alexey Drutsa. 2020. Reserve pricing in repeated second-price auctions with strategic bidders. In International Conference on Machine Learning. PMLR, 2678–2689.

[2] Paul Dütting, Zhe Feng, Harikrishna Narasimhan, David Parkes, and Sai Srivatsa Ravindranath. 2019. Optimal auctions through deep learning. In International Conference on Machine Learning. PMLR, 1706–1715.

[3] Yanjun Han, Zhengyuan Zhou, Aaron Flores, Erik Ordentlich, and Tsachy Weissman. 2020. Learning to bid optimally and efficiently in adversarial first-price auctions. arXiv preprint arXiv:2007.04568 (2020).

[4] Thomas Nedelec, Jules Baudet, Vianney Perchet, and Noureddine El Karoui. 2021. Adversarial Learning in Revenue-Maximizing Auctions. In Proceedings of the 20th International Conference on Autonomous Agents and MultiAgent Systems. 955–963.

[5] David Balduzzi, Sebastien Racaniere, James Martens, Jakob Foerster, Karl Tuyls, and Thore Graepel. 2018. The mechanics of n-player differentiable games. In International Conference on Machine Learning. PMLR, 354–363.

[6] Alexander A Alemi, Ian Fischer, Joshua V Dillon, and Kevin Murphy. 2016. Deep variational information bottleneck. arXiv preprint arXiv:1612.00410 (2016).

END

e9526d418e49ed6d4609c1be3f493fb5.gif

也许你还想看

CBRL:面向ROI约束竞价问题的课程引导贝叶斯强化学习框架

基于对抗梯度的探索模型及其在点击预估中的应用

一种用于在线广告自动竞价的协作竞争多智能体框架

NAACL22 & SIGIR22 | 面向 CTR 的外投广告动态创意优化实践

Memorization Discrepancy:利用模型动态信息发现累积性注毒攻击

关注「阿里妈妈技术」了解更多~

bdcd7a119ade57970a9b1cdc3d5ae68c.gif

喜欢要“分享”,好看要“点赞”哦ღ~

↓欢迎留言参与讨论↓

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值