Real-Time Bidding with Multi-Agent Reinforcement Learning in Display Advertising 笔记

本文介绍了在实时广告竞价(RTB)中,通过多智能体强化学习(MARL)实现竞价策略优化。在淘宝展示广告系统中,商家需面对复杂的市场竞争和预算约束,优化竞价策略以提高收入和ROI。文章提出了将RTB视为随机博弈,并采用聚类方法减少计算复杂性,通过多智能体RL学习出价策略。实验表明,这种方法在不损害其他商家收益的同时,提高了总收益和社会最优状态,验证了协同建模的优势。
摘要由CSDN通过智能技术生成

前言

找一篇文章作为抓手了解专业术语之类的背景知识。

https://arxiv.org/abs/1802.09756

实时广告允许广告主为一个浏览用户的每一次impression(印象数/展示数,用来衡量广告被用户浏览次数的标准,也称之为“曝光”)出价。为了优化特定目标,例如最大限度地提高收入和由广告展示位置带来的投资回报 (ROI),广告商不仅需要估计广告与用户兴趣之间的相关性,而且最重要的是需要针对市场中其他广告商出价做出战略反应。典型的使用二价密封拍卖,理论上会鼓励诚实出价,但是最优或均衡出价往往是不得而知的,影响因素有很多,包括市场出价的可得性、预算约束的存在、性能目标、对手投标者的(非)理性。因此,如何战略性地优化竞价成为实时广告竞价的核心问题。

迄今为止,对最优竞价策略的研究主要集中在统计方法上,强烈假设市场数据是稳定的(即它们的概率分布不会随着当前投标人的行为而变化)。有人展示了预算约束的最优出价可以在稳定环境实现。作者主要解决已有计算竞价方法只针对微观场景的一方优化的问题,实现更好的社会最优。通过MARL建模竞价agent的交互,通过理性agent得到均衡阶段。作者说这是最早的MARL在RTB现实场景中的应用之一。

淘宝展示广告系统

淘宝的广告主大多是商家,不仅打广告还卖商品。
在这里插入图片描述
淘宝广告系统可以分为三部分。首先在匹配阶段,通过挖掘行为数据获得用户偏好,当接收到用户请求时,匹配部分根据相关性从整个实时广告语料库中实时召回候选广告(通常为数百个广告)。与推荐系统不同,广告的召回必须反映广告商的出价意愿,即他们的行为定位设置。其次,后续实时预测 (RTP) 引擎会预测每个符合条件的广告的点击率 (pCTR) 和转化率 (pCVR)。第三,在收到每个候选广告的实时竞价后,这些候选广告按照bid×pCTR降序排列,称为有效每千次展示成本(eCPM)排序机制。最后,显示排名的广告。扩展阅读:Display Advertising with Real-Time Bidding (RTB) and Behavioural Targeting

竞价的改变会影响候选广告的排序,进而影响消费者和商家之间建立的联系。一个理想的映射是消费者找到理想的商品,商家锁定有意愿购买广告商品的合适的消费者。当供给恰好满足需求时,平台为社会创造更高的连接价值。为了更好地优化收入,商家授权平台在可接受的范围内调整他们手动设置的出价。综上所述,竞价是网络广告系统中的关键控制变量,如果调整得当,可以实现消费者、商家和平台利益的三赢。每次竞拍一般呦消费者发起,给定一个预算实现更高的收益是商家的普遍目标。商家获得更高的收益,意味着消费者与他们想要的商品连接了,获得更好的体验,对于平台意味着更大的商品交易总额(GMV),即更大的广告长期收益。

每当点击商家的广告时,根据具有 CPC(按点击售卖) 机制的广义第二价格 (GSP) 拍卖,将相应商家的未花费预算减去广告费用。如果商人在拍卖中输了,他将得不到任何奖励,也不支付任何费用。如果预算用完,商家将不参与任何剩余拍卖。

展示广告中的投标通常被视为一个episodic过程。 每个episode都包括许多拍卖,每次拍卖都是关于一个消费者在一个非常特定的场景下的页面浏览。拍卖会按顺序发送给竞价agent。每个商家的目标都是在正确的时间为正确的消费者分配预算,以最大化其 KPI,例如收入和投资回报率。所有的商家在一起竞争形成一个多智能体博弈。然而,当预算有限时,商家的竞价博弈可能会导致次优均衡。例如,商家在前期竞价中竞争激烈,很多商家不得不提前退出,后期竞价竞争强度低导致消费者与商家的匹配效率低下。因此,所有商家根据不同的竞争环境,在适当的时间为不同的消费者设置出价,对于淘宝广告系统实现社会最优状态至关重要。

相关工作

Bid Optimization in RTB. 竞价优化是RTB中最关注的问题之一,其目标是为每次拍卖的曝光设置合适的竞价,来最大化点击或盈利等KPI。

有建模曝光评估和竞价策略的,但他们将竞价优化看做静态问题,不能解决动态场景和竞价agent的理性。还有一些使用RL方法的,但往往针对单个广告主,将其他看做环境的一部分。还有pacing算法,它根据流量强度波动平滑预算支出,可以被认为是一种单agent优化方法,它没有明确建模拍卖环境中其他agent行为的影响,而且不能协调agent合作以获得更好的均衡。作者平等对待每个广告主,并且同时考虑广告主、消费者和平台的利益,实现广告主竞争高质量曝光的同时为了用户体验而协作。

多智能体广告竞价

RTB as a Stochastic Game

随机博弈,即马尔科夫博弈,N个竞价agent代表商家竞价广告曝光,状态集S描述所有竞价agent可能的情形,动作集 A i A_i Ai代表agent i的竞价调整比例, S i S_i Si是agent i的状态空间,初始状态通过一个预定义的分布决定,每个agent最大化自己的return。

Agent Clusters

n个注册的商家记做 { m i } i = 1 n \{m_i\}_{i=1}^n { mi}i=1n,l个注册消费者记做 { c i } i = 1 l \{c_i\}_{i=1}^l { ci}i=1l。每个拍卖由一个消费者发起,特征 x x x描述这场拍卖中消费者的信息。商家的商品价格记做ppb。

分别建模每个商家会导致计算量的增加,并且一个特定的商家-消费者对很稀疏,随着agent数目的增加,探索噪声会变得难以控制,作者提出一种聚类方法建模包含的对象。以一天的总收益作为聚类特征,n个商家被分类为N个簇 { M i } i = 1 N \{M_i\}_{i=1}^N { Mi}i=1N。类似的,以一天贡献的收益为特征,l个消费者被分类为L个簇 { C i } i = 1 L \{C_i\}_{i=1}^L { Ci}i=1L。将消费者聚类以构建agent的状态并计算静态特征,使agent能够评估来自不同消费者簇的拍卖特征并相应地调整出价。下面使用i作为商家簇的下标,j作为消费者簇的下标,通常 N ≪ n , L ≪ l N\ll n, L\ll l Nn,Ll。当我们缩小簇的大小增加簇的数量,近似理想情况。
在这里插入图片描述

State

作者的状态设计旨在让竞价agent根据每个曝光价值和随着时间的花费趋势优化自己的预算分配。作者考虑从episode开始到现在的商家 M i M_i Mi和消费者 C j C_j Cj之间的累加花费和收益 g i j = ( c o s t i j , r e v e n u e i j ) g_{ij}=(cost_{ij},revenue_{ij}) gij=(costij,revenueij)作为一般信息状态。因为所有这些 g i j g_{ij} gij表现了重要信息:

  1. agent预算花费情况,为剩下的拍卖计划
  2. agent的消费者的(cost,revenue)分布,以区分不同消费群的质量
  3. 其他agent的(cost,revenue)分布,来评估竞争或合作环境

除此之外,消费者特征 x x x也被加入状态,包含缓慢改变的消费者特征,例如每隔一段时间更新的总(cost,revenue)情况。这个特征帮助agent更好地评估拍卖。将 g i j g_{ij} gij x x x拼接形成状态 s = [ g , x ] s=[g,x] s=[g,x]。假设每个商家的预算是预定义的,因此他们的花费和剩余预算信息在状态中维护。

Action

每个商家手动给不同的消费者群设置不同的固定竞价。不失一般性,将所有拍卖的固定竞价记做 b i d k bid_k bidk,下文中 k k k n n n个商家上迭代。为了更好地预算分配,平台被授权以一个标量 α \alpha

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值