Real-Time Bidding with Multi-Agent Reinforcement Learning in Display Advertising 笔记

强殖装甲凯普

于 2021-12-17 17:05:59 发布

阅读量735

点赞数 1

分类专栏：论文笔记文章标签：强化学习计算广告

本文链接：https://blog.csdn.net/qq_38163755/article/details/121915747

版权

本文介绍了在实时广告竞价（RTB）中，通过多智能体强化学习（MARL）实现竞价策略优化。在淘宝展示广告系统中，商家需面对复杂的市场竞争和预算约束，优化竞价策略以提高收入和ROI。文章提出了将RTB视为随机博弈，并采用聚类方法减少计算复杂性，通过多智能体RL学习出价策略。实验表明，这种方法在不损害其他商家收益的同时，提高了总收益和社会最优状态，验证了协同建模的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

找一篇文章作为抓手了解专业术语之类的背景知识。

https://arxiv.org/abs/1802.09756

实时广告允许广告主为一个浏览用户的每一次impression（印象数/展示数，用来衡量广告被用户浏览次数的标准，也称之为“曝光”）出价。为了优化特定目标，例如最大限度地提高收入和由广告展示位置带来的投资回报 (ROI)，广告商不仅需要估计广告与用户兴趣之间的相关性，而且最重要的是需要针对市场中其他广告商出价做出战略反应。典型的使用二价密封拍卖，理论上会鼓励诚实出价，但是最优或均衡出价往往是不得而知的，影响因素有很多，包括市场出价的可得性、预算约束的存在、性能目标、对手投标者的（非）理性。因此，如何战略性地优化竞价成为实时广告竞价的核心问题。

迄今为止，对最优竞价策略的研究主要集中在统计方法上，强烈假设市场数据是稳定的（即它们的概率分布不会随着当前投标人的行为而变化）。有人展示了预算约束的最优出价可以在稳定环境实现。作者主要解决已有计算竞价方法只针对微观场景的一方优化的问题，实现更好的社会最优。通过MARL建模竞价agent的交互，通过理性agent得到均衡阶段。作者说这是最早的MARL在RTB现实场景中的应用之一。

淘宝展示广告系统

淘宝的广告主大多是商家，不仅打广告还卖商品。
在这里插入图片描述
淘宝广告系统可以分为三部分。首先在匹配阶段，通过挖掘行为数据获得用户偏好，当接收到用户请求时，匹配部分根据相关性从整个实时广告语料库中实时召回候选广告（通常为数百个广告）。与推荐系统不同，广告的召回必须反映广告商的出价意愿，即他们的行为定位设置。其次，后续实时预测 (RTP) 引擎会预测每个符合条件的广告的点击率 (pCTR) 和转化率 (pCVR)。第三，在收到每个候选广告的实时竞价后，这些候选广告按照bid×pCTR降序排列，称为有效每千次展示成本（eCPM）排序机制。最后，显示排名的广告。扩展阅读：Display Advertising with Real-Time Bidding (RTB) and Behavioural Targeting。

竞价的改变会影响候选广告的排序，进而影响消费者和商家之间建立的联系。一个理想的映射是消费者找到理想的商品，商家锁定有意愿购买广告商品的合适的消费者。当供给恰好满足需求时，平台为社会创造更高的连接价值。为了更好地优化收入，商家授权平台在可接受的范围内调整他们手动设置的出价。综上所述，竞价是网络广告系统中的关键控制变量，如果调整得当，可以实现消费者、商家和平台利益的三赢。每次竞拍一般呦消费者发起，给定一个预算实现更高的收益是商家的普遍目标。商家获得更高的收益，意味着消费者与他们想要的商品连接了，获得更好的体验，对于平台意味着更大的商品交易总额（GMV），即更大的广告长期收益。

每当点击商家的广告时，根据具有 CPC（按点击售卖）机制的广义第二价格 (GSP) 拍卖，将相应商家的未花费预算减去广告费用。如果商人在拍卖中输了，他将得不到任何奖励，也不支付任何费用。如果预算用完，商家将不参与任何剩余拍卖。

展示广告中的投标通常被视为一个episodic过程。每个episode都包括许多拍卖，每次拍卖都是关于一个消费者在一个非常特定的场景下的页面浏览。拍卖会按顺序发送给竞价agent。每个商家的目标都是在正确的时间为正确的消费者分配预算，以最大化其 KPI，例如收入和投资回报率。所有的商家在一起竞争形成一个多智能体博弈。然而，当预算有限时，商家的竞价博弈可能会导致次优均衡。例如，商家在前期竞价中竞争激烈，很多商家不得不提前退出，后期竞价竞争强度低导致消费者与商家的匹配效率低下。因此，所有商家根据不同的竞争环境，在适当的时间为不同的消费者设置出价，对于淘宝广告系统实现社会最优状态至关重要。

多智能体广告竞价

RTB as a Stochastic Game

随机博弈，即马尔科夫博弈，N个竞价agent代表商家竞价广告曝光，状态集S描述所有竞价agent可能的情形，动作集 $A_i$ 代表agent i的竞价调整比例， $S_i$ 是agent i的状态空间，初始状态通过一个预定义的分布决定，每个agent最大化自己的return。

Agent Clusters

n个注册的商家记做 ${m_i\}_{i=1}^n$ ，l个注册消费者记做 ${c_i\}_{i=1}^l$ 。每个拍卖由一个消费者发起，特征 $x$ 描述这场拍卖中消费者的信息。商家的商品价格记做ppb。

分别建模每个商家会导致计算量的增加，并且一个特定的商家-消费者对很稀疏，随着agent数目的增加，探索噪声会变得难以控制，作者提出一种聚类方法建模包含的对象。以一天的总收益作为聚类特征，n个商家被分类为N个簇 ${M_i\}_{i=1}^N$ 。类似的，以一天贡献的收益为特征，l个消费者被分类为L个簇 ${C_i\}_{i=1}^L$ 。将消费者聚类以构建agent的状态并计算静态特征，使agent能够评估来自不同消费者簇的拍卖特征并相应地调整出价。下面使用i作为商家簇的下标，j作为消费者簇的下标，通常 $N\ll n, L\ll l$ 。当我们缩小簇的大小增加簇的数量，近似理想情况。
在这里插入图片描述

State

作者的状态设计旨在让竞价agent根据每个曝光价值和随着时间的花费趋势优化自己的预算分配。作者考虑从episode开始到现在的商家 $M_i$ 和消费者 $C_j$ 之间的累加花费和收益 $g_{ij}=(cost_{ij},revenue_{ij})$ 作为一般信息状态。因为所有这些 $g_{ij}$ 表现了重要信息：

agent预算花费情况，为剩下的拍卖计划
agent的消费者的（cost，revenue）分布，以区分不同消费群的质量
其他agent的（cost，revenue）分布，来评估竞争或合作环境

除此之外，消费者特征 $x$ 也被加入状态，包含缓慢改变的消费者特征，例如每隔一段时间更新的总（cost，revenue）情况。这个特征帮助agent更好地评估拍卖。将 $g_{ij}$ 与 $x$ 拼接形成状态 $s = [g, x]$ 。假设每个商家的预算是预定义的，因此他们的花费和剩余预算信息在状态中维护。