Real-Time Bidding with Multi-Agent Reinforcement Learning in Display Advertising 笔记

前言

找一篇文章作为抓手了解专业术语之类的背景知识。

https://arxiv.org/abs/1802.09756

实时广告允许广告主为一个浏览用户的每一次impression(印象数/展示数,用来衡量广告被用户浏览次数的标准,也称之为“曝光”)出价。为了优化特定目标,例如最大限度地提高收入和由广告展示位置带来的投资回报 (ROI),广告商不仅需要估计广告与用户兴趣之间的相关性,而且最重要的是需要针对市场中其他广告商出价做出战略反应。典型的使用二价密封拍卖,理论上会鼓励诚实出价,但是最优或均衡出价往往是不得而知的,影响因素有很多,包括市场出价的可得性、预算约束的存在、性能目标、对手投标者的(非)理性。因此,如何战略性地优化竞价成为实时广告竞价的核心问题。

迄今为止,对最优竞价策略的研究主要集中在统计方法上,强烈假设市场数据是稳定的(即它们的概率分布不会随着当前投标人的行为而变化)。有人展示了预算约束的最优出价可以在稳定环境实现。作者主要解决已有计算竞价方法只针对微观场景的一方优化的问题,实现更好的社会最优。通过MARL建模竞价agent的交互,通过理性agent得到均衡阶段。作者说这是最早的MARL在RTB现实场景中的应用之一。

淘宝展示广告系统

淘宝的广告主大多是商家,不仅打广告还卖商品。
在这里插入图片描述
淘宝广告系统可以分为三部分。首先在匹配阶段,通过挖掘行为数据获得用户偏好,当接收到用户请求时,匹配部分根据相关性从整个实时广告语料库中实时召回候选广告(通常为数百个广告)。与推荐系统不同,广告的召回必须反映广告商的出价意愿,即他们的行为定位设置。其次,后续实时预测 (RTP) 引擎会预测每个符合条件的广告的点击率 (pCTR) 和转化率 (pCVR)。第三,在收到每个候选广告的实时竞价后,这些候选广告按照bid×pCTR降序排列,称为有效每千次展示成本(eCPM)排序机制。最后,显示排名的广告。扩展阅读:Display Advertising with Real-Time Bidding (RTB) and Behavioural Targeting

竞价的改变会影响候选广告的排序,进而影响消费者和商家之间建立的联系。一个理想的映射是消费者找到理想的商品,商家锁定有意愿购买广告商品的合适的消费者。当供给恰好满足需求时,平台为社会创造更高的连接价值。为了更好地优化收入,商家授权平台在可接受的范围内调整他们手动设置的出价。综上所述,竞价是网络广告系统中的关键控制变量,如果调整得当,可以实现消费者、商家和平台利益的三赢。每次竞拍一般呦消费者发起,给定一个预算实现更高的收益是商家的普遍目标。商家获得更高的收益,意味着消费者与他们想要的商品连接了,获得更好的体验,对于平台意味着更大的商品交易总额(GMV),即更大的广告长期收益。

每当点击商家的广告时,根据具有 CPC(按点击售卖) 机制的广义第二价格 (GSP) 拍卖,将相应商家的未花费预算减去广告费用。如果商人在拍卖中输了,他将得不到任何奖励,也不支付任何费用。如果预算用完,商家将不参与任何剩余拍卖。

展示广告中的投标通常被视为一个episodic过程。 每个episode都包括许多拍卖,每次拍卖都是关于一个消费者在一个非常特定的场景下的页面浏览。拍卖会按顺序发送给竞价agent。每个商家的目标都是在正确的时间为正确的消费者分配预算,以最大化其 KPI,例如收入和投资回报率。所有的商家在一起竞争形成一个多智能体博弈。然而,当预算有限时,商家的竞价博弈可能会导致次优均衡。例如,商家在前期竞价中竞争激烈,很多商家不得不提前退出,后期竞价竞争强度低导致消费者与商家的匹配效率低下。因此,所有商家根据不同的竞争环境,在适当的时间为不同的消费者设置出价,对于淘宝广告系统实现社会最优状态至关重要。

相关工作

Bid Optimization in RTB. 竞价优化是RTB中最关注的问题之一,其目标是为每次拍卖的曝光设置合适的竞价,来最大化点击或盈利等KPI。

有建模曝光评估和竞价策略的,但他们将竞价优化看做静态问题,不能解决动态场景和竞价agent的理性。还有一些使用RL方法的,但往往针对单个广告主,将其他看做环境的一部分。还有pacing算法,它根据流量强度波动平滑预算支出,可以被认为是一种单agent优化方法,它没有明确建模拍卖环境中其他agent行为的影响,而且不能协调agent合作以获得更好的均衡。作者平等对待每个广告主,并且同时考虑广告主、消费者和平台的利益,实现广告主竞争高质量曝光的同时为了用户体验而协作。

多智能体广告竞价

RTB as a Stochastic Game

随机博弈,即马尔科夫博弈,N个竞价agent代表商家竞价广告曝光,状态集S描述所有竞价agent可能的情形,动作集 A i A_i Ai代表agent i的竞价调整比例, S i S_i Si是agent i的状态空间,初始状态通过一个预定义的分布决定,每个agent最大化自己的return。

Agent Clusters

n个注册的商家记做 { m i } i = 1 n \{m_i\}_{i=1}^n { mi}i=1n,l个注册消费者记做 { c i } i = 1 l \{c_i\}_{i=1}^l { ci}i=1l。每个拍卖由一个消费者发起,特征 x x x描述这场拍卖中消费者的信息。商家的商品价格记做ppb。

分别建模每个商家会导致计算量的增加,并且一个特定的商家-消费者对很稀疏,随着agent数目的增加,探索噪声会变得难以控制,作者提出一种聚类方法建模包含的对象。以一天的总收益作为聚类特征,n个商家被分类为N个簇 { M i } i = 1 N \{M_i\}_{i=1}^N { Mi}i=1N。类似的,以一天贡献的收益为特征,l个消费者被分类为L个簇 { C i } i = 1 L \{C_i\}_{i=1}^L { Ci}i=1L。将消费者聚类以构建agent的状态并计算静态特征,使agent能够评估来自不同消费者簇的拍卖特征并相应地调整出价。下面使用i作为商家簇的下标,j作为消费者簇的下标,通常 N ≪ n , L ≪ l N\ll n, L\ll l Nn,Ll。当我们缩小簇的大小增加簇的数量,近似理想情况。
在这里插入图片描述

State

作者的状态设计旨在让竞价agent根据每个曝光价值和随着时间的花费趋势优化自己的预算分配。作者考虑从episode开始到现在的商家 M i M_i Mi和消费者 C j C_j Cj之间的累加花费和收益 g i j = ( c o s t i j , r e v e n u e i j ) g_{ij}=(cost_{ij},revenue_{ij}) gij=(costij,revenueij)作为一般信息状态。因为所有这些 g i j g_{ij} gij表现了重要信息:

  1. agent预算花费情况,为剩下的拍卖计划
  2. agent的消费者的(cost,revenue)分布,以区分不同消费群的质量
  3. 其他agent的(cost,revenue)分布,来评估竞争或合作环境

除此之外,消费者特征 x x x也被加入状态,包含缓慢改变的消费者特征,例如每隔一段时间更新的总(cost,revenue)情况。这个特征帮助agent更好地评估拍卖。将 g i j g_{ij} gij x x x拼接形成状态 s = [ g , x ] s=[g,x] s=[g,x]。假设每个商家的预算是预定义的,因此他们的花费和剩余预算信息在状态中维护。

Action

每个商家手动给不同的消费者群设置不同的固定竞价。不失一般性,将所有拍卖的固定竞价记做 b i d k bid_k bid

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
翻译Agent 𝑐 𝑖 . In this paper, we regard each charging station 𝑐 𝑖 ∈ 𝐶 as an individual agent. Each agent will make timely recommendation decisions for a sequence of charging requests 𝑄 that keep coming throughout a day with multiple long-term optimization goals. Observation 𝑜 𝑖 𝑡 . Given a charging request 𝑞𝑡 , we define the observation 𝑜 𝑖 𝑡 of agent 𝑐 𝑖 as a combination of the index of 𝑐 𝑖 , the real-world time 𝑇𝑡 , the number of current avail able charging spots of 𝑐 𝑖 (supply), the number of charging requests around 𝑐 𝑖 in the near future (future demand), the charging power of 𝑐 𝑖 , the estimated time of arrival (ETA) from location 𝑙𝑡 to 𝑐 𝑖 , and the CP of 𝑐 𝑖 at the next ETA. We further define 𝑠𝑡 = {𝑜 1 𝑡 , 𝑜2 𝑡 , . . . , 𝑜𝑁 𝑡 } as the state of all agents at step 𝑡. Action 𝑎 𝑖 𝑡 . Given an observation 𝑜 𝑖 𝑡 , an intuitional design for the action of agent𝑐 𝑖 is a binary decision, i.e., recommending 𝑞𝑡 to itself for charging or not. However, because one 𝑞𝑡 can only choose one station for charging, multiple agents’ actions may be tied together and are difficult to coordinate. Inspired by the bidding mechanism, we design each agent 𝑐 𝑖 offers a scalar value to "bid" for 𝑞𝑡 as its action 𝑎 𝑖 𝑡 . By defining 𝑢𝑡 = {𝑎 1 𝑡 , 𝑎2 𝑡 , . . . , 𝑎𝑁 𝑡 } as the joint action, 𝑞𝑡 will be recommended to the agent with the highest "bid" value, i.e., 𝑟𝑐𝑡 = 𝑐 𝑖 , where 𝑖 = arg max(𝑢𝑡)
最新发布
07-11

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值