本文尝试将拍卖机制的几个经典问题做脉络性梳理,重点阐述概念之间的演进关系。希望可以勾勒清楚技术全貌,有助于大家系统性地认识计算广告领域的拍卖机制设计。
丨目录:
1.初识广告拍卖机制和相关博弈论基础知识
2.社会福利最大化的有效机制
3.平台营收最大化的最优机制
4.经典广告拍卖基本框架和预告进阶篇
5.参考文献
搜索、推荐和广告在过去几年互联网蓬勃发展的浪潮中起到了核心助推引擎的作用,三者技术发展也是互相借鉴和相辅相成,有很多共通之处也有不少差异的地方。本文从广告视角出发,重点介绍广告技术与搜推技术最本质的差异点——拍卖机制的原理和实践。作为最具广告特色的技术模块,拍卖机制理解起来往往较为晦涩。一方面因为这个技术领域是基于博弈论思维,概念较多且定理推导复杂,和已经标准化的基于数据驱动的机器学习思维截然不同;另一方面因为理论假设过于严格,和实际差距较大,使得论证过程无论多么完善,实践落地仍然需要考量诸多复杂因素。本文尝试将拍卖机制的几个经典问题做一个脉络性梳理,概念和论证过程可自行查阅这里不再赘述,但概念之间的演进关系会重点阐述,希望可以勾勒清楚技术全貌,有助于大家系统性地认识计算广告领域的拍卖机制设计。
本文会按照几个小话题顺次展开介绍:
广告领域的拍卖机制简化而言是一个什么拍卖问题,背后最基本的博弈论概念是什么;最理想的拍卖机制长什么样,需要满足哪些条件;理想照进现实,哪些条件可以妥协松弛使得真正落地的拍卖机制即使没有非常理想但依然运行良好;本文所说的经典的拍卖机制设计范畴是什么?
社会福利最大化的拍卖机制如何设计才能使得市场蛋糕被有效扩大;点击率的不同假设这一关键变量如何影响拍卖机制的性质;机制设计需要做哪些与之对应的调整与升级?
平台营收最大化的拍卖机制如何设计才能使得市场蛋糕被最优地分配;以保留价设计为代表的这一关键技术是如何影响拍卖机制的性质;机制设计背后的假设需要做哪些与之对应的调整?
经典的拍卖机制的基本框架长什么样;多个优化目标在这个框架下是如何平衡;面向广告业务新形势下的AutoBidding模式,拍卖机制该如何重新思考面向未来?
1. 初识广告拍卖机制和相关博弈论基础知识
1.1. 为什么说拍卖机制是广告与搜推最本质的差异点
先从本文开头提到的“为什么拍卖机制是广告与搜推最本质的差异之处”说起。以电商场景为例,搜索推荐涉及到免费资源位的高效分配问题,广告涉及到付费资源位的高效分配问题。以最基础的单目标价值最大化为例,搜推的资源位分配按照GMV期望最大化排序,广告的资源位分配按照CPM期望最大化排序,其中和是模型预估分,是广告主报价(如果是系统自动出价,则是的相关函数)。可以看出广告领域中广告主可以通过调整自身的bid报价策略使得自身的竞争力发生改变,从而影响资源位的分配结果,然而搜推领域的分配结果商家没有办法直接干预,纯粹由平台决策。所以从分配结果来看,搜推的主角是平台,但是广告的主角是广告主。
更为重要的是,广告除了资源位分配环节以外还有广告主扣费环节,以GSP机制为例,赢得第一个资源位的广告主需要付费 ,广告主又会根据实际付费情况核算营销表现是否符合预期,从而进一步影响下一轮报价策略。如此往复,广告主个体竞价策略变化的相互博弈最终形成了广告系统整体的收敛分配结果,这个博弈收敛的过程也是搜推领域不需要考虑的。所以广告的拍卖机制包括资源位分配和广告主扣费两个环节,如何设计能够促使广告主的竞价博弈收敛结果是符合平台引导预期的拍卖机制是重点也是难点。
1.2. 广告拍卖机制相关的博弈论基础知识
提到博弈过程和收敛结果,就不得不引出博弈论的相关知识,因为博弈论是一门独立的学科,广告的拍卖机制仅仅是博弈论的一个应用案例,所以下文讲述的侧重点是博弈论在广告拍卖机制中的应用。何谓机制?机制就是设计者想方设法让参与者做设计者想让他们做的事情,手段就是利用参与者的各自偏好,引入博弈环境,使得博弈收敛后的均衡结果符合设计者初衷。注意,参与者必须是智能体,体现在理性和有能力权衡偏好得失,且智能体的偏好往往是私有信息Private Value(有些地方称作Type类型)、外界不可知,所以好的机制设计需要具备偏好诱导能力,提供某种激励方式使得智能体在博弈环境中的真实表达是他的最优策略,这样单个个体的行为结果可预期,整体博弈收敛结果可以有导向性。总结来说,机制设计有几个要点:
智能体有偏好需求:广告主就是智能体,他的营销偏好是理性且私有的,常见偏好模式有效用最大化(Utility Maximizer)和价值最大化(Value Maximizer),机制设计之初就需要先确定智能体的偏好模式,后续才能有针对性地设计偏好诱导方式,下文会结合具体技术再详细阐述。
设计者有引导目标:广告平台就是设计者,他的引导目标是明确的,常见目标有社会福利最大化和平台营收最大化,即引导的博弈均衡结果(包括分配结果和扣费结果)是有设计初衷的。下文会按照两条迭代主线展开介绍。
偏好诱导激励相容:激励相容(Incentive Compatibility) 就是鼓励竞拍者讲真话,使得竞拍者目标和平台目标可以同向发力,有两个标准:1)优势策略激励相容(Dominant-Strategy Incentive Compatibility,简称DSIC),不管其他智能体如何报告自己的私有信息,如实报告(即讲真话)是每个智能体的最优反应,所谓最优反应就是如果不这么做就会有损失;2)贝叶斯纳什激励相容(Bayes-Nash Incentive Compatibility,简称BIC),如果其他智能体是如实报告的,那么你的最优反应也是如实报告。
博弈结果存在均衡:博弈结果可以有一个均衡,也可以有多个均衡,关键不能是非均衡,起码有确定性的纳什均衡 Nash Equilibrium存在。激励相容引导的均衡可以是较弱的贝叶斯纳什均衡 Bayesian Nash Equilibrium,也可以是严格的优势策略均衡 Dominant Strategy Equilibrium(可进一步细分三个版本,强、弱和极弱等,这里不再进一步介绍)。
以最常用的囚徒困境为例,介绍一下纳什均衡的应用。有两个智能体囚徒,分别都有两个策略:抵赖NC和招供C,表格里的数字表示囚徒在不同的环境下选择不同的策略可以获得的效用utility,即利益偏好,这里数字表示判刑多少年。可见(C, C)->(-5, -5) 是纳什均衡 Nash Equilibrium,纳什均衡的意思是任何智能体单方面偏离自己的均衡策略均无利可图,当下策略是其他智能体均衡策略的最优反应。(C, C)->(-5, -5)状态表明不会有哪个囚徒会单方面改变自己的策略,因为只要对方不动,自己改变都会让自己利益受损,判刑年数更长。另外需要注意,纳什均衡仅保证参与人不会单方面偏离,但不能保证其他人或者大家共同偏离,而且纳什均衡结果不一定是整体收益最大化,显然该例子如果两个囚徒选择共同偏离、合谋采取 (NC, NC) 策略,(-2, -2) 可以使得整体收益最大。
智能体1/智能体2 | 策略NC | 策略C |
---|---|---|
策略NC | -2,-2 | -10,-1 |
策略C | -1,-10 | -5,-5 |
综上该小节内容,广告拍卖机制涉及到的博弈论要研究的内容就是新设计的机制能否达到纳什均衡;达到的纳什均衡属于什么强度;均衡唯一还是均衡多值;收敛性能如何;收敛结果能否达到预期目标最大化。
1.3. 理想化的拍卖机制和理想照进现实的松弛策略
前文已经介绍基于博弈论的机制设计原则,那么最理想的广告拍卖机制需要满足哪些性质?主要有3个:
高动机保证,优势策略激励相容(DSIC)即如实报价是优势策略,注意均衡不仅存在,而且是以最严格的优势策略均衡(DSE)的形式存在;
高效果保证:均衡结果满足引导预期,社会福利最大化或平台营收最大化;
高效率保证:多项式时间(一般近似线性)内完成分配和扣费两个计算过程。
如何实现理想化的拍卖机制?大体思路可以用一句话概括:先定分配规则(Allocation Rule),再定扣费规则(Payment Rule)。展开来说: