KDD'23 | PerBid:在线广告个性化自动出价框架

导读:出价产品智能化成为行业发展趋势,自动出价(Auto-bidding)已成为互联网广告主营销的主流,大商家数据量大往往在统一模型中更占优势,为提升中小商家效果,我们开启探索“千店千模”之路。

摘要

随着深度学习技术的发展,广告平台推出了多样化的自动出价服务,协助广告主实现智能决策。然而由于不同的广告主往往处于具有极强异质性的广告投放环境中,因此当前广泛采用的“使用统一自动出价策略服务全体广告主”的方法可能使得不同广告主的广告计划的投放效果存在较大的差异。在本文中,我们提出了个性化自动出价框架PerBid(Personalized Automated Bidding Framework),将传统的仅有单一策略(agent)的自动出价策略拓展为多个能够感知上下文(context-aware)的策略(agent),其中每个策略对应一类特定的广告主聚类(Advertiser Cluster)。具体来说,我们首先设计了广告计划画像网络(Ad Campaign Profiling Network)用于建模动态的广告投放环境。之后,我们通过聚类技术将差异化的广告主分为多个类并为每一类广告主设计一个特定的具有上下文感知能力的自动出价策略(agent),从而实现为每个广告主匹配特定的个性化策略。

论文:A Personalized Automated Bidding Framework for Fairness-aware Online Advertising

链接(点击↓阅读原文)https://dl.acm.org/doi/pdf/10.1145/3580305.3599765

一、背景

随着电子商务的快速发展,在线广告成为了大量品牌和商户推广产品的主要渠道。为了更好地服务广告主,在线广告平台推出了各类广告策略服务,提供了基于机器学习的算法来辅助广告主实现广告投放过程中的智能决策。其中一个最具代表性的例子就是基于强化学习(Renforcement Learning,RL)的自动出价策略。然而由于每个广告主自身数据的稀疏性以及平台计算资源的限制,当前的自动出价策略往往是以一种统一的方式生成的,也就是平台收集所有广告主广告计划的数据,利用这些数据训练生成一个统一(unified)的自动出价策略,然后再将这个策略应用到所有广告主的广告计划上。然而这样统一的自动出价策略对于每个单一个体广告主和广告计划来说并不是最优的。通过离线数据分析,我们发现了问题背后的两个潜在原因:一方面,不同广告主在不同时间的广告投放过程中面临差异化的广告投放环境,包括用户流量的分布情况、流量价格的差异等等。当前统一的自动出价策略未能深入的感知不同广告主所面临环境的差异性,因此导致不同广告主在使用同样的自动出价策略时所获取的广告效果具有较大的差异。另一方面,不同类型广告主和广告计划在线上平台所占据的比例有很大的差异,且其在利用基于RL的广告投放策略进行投放的过程中面对的广告投放状态(state)也具有很大的不同,导致了RL训练的过程中存在不平衡的状态探索(state exploration),使得策略在服务那些状态未能被完全探索的广告主时的效果不如那些状态被充分探索的广告主。因此在本工作中,我们研究如何设计个性化的基于RL的自动出价策略,使其能够充分观测差异化的环境,并能够高效地探索不同的广告投放状态,进一步提升所有广告主的效果。设计该自动出价策略主要面临两大挑战。首先,广告投放环境随着时间会发生快速的变化,同时决定环境的因素非常多样,包括投放时间、目标人群、其他广告主的策略等等,使得难以使用传统的建模方法对其进行建模,需要设计高效的方式来获取广告投放环境的上下文信息。其次,即使对广告投放环境进行了合理的建模,直接将其加入基于RL的广告投放策略当中会大幅度扩张广告投放状态的状态空间,从而进一步加剧数据的稀疏性和不平衡的状态探索,使得难以高效地生成能够感知上下文的自动出价策略。为了解决上述挑战,我们提出了个性化自动出价框架PerBid。该框架不再仅生成单一的自动出价策略,而是通过生成一系列能够感知上下文的候选自动出价策略以应对不同类型的广告计划及差异化的广告投放环境,并通过匹配不同的广告主/广告计划和特定的个性化出价策略进一步提升个体广告主的投放效果并缓解效果差异现象。具体来说,PerBid首先通过广告计划画像网络来表征和建模当前广告主/广告计划所处的投放环境,并基于对环境的建模和表征进一步设计具有上下文感知能力的自动出价策略。之后,我们将广告主/广告计划根据其所处广告投放环境的差异通过聚类技术划分入若干个聚类,并为每一个聚类训练生成一个特定的自动出价策略。最后,对于一个广告主/广告计划,我们根据历史信息为其匹配最合适的候选策略,并通过本地适配进一步提升其效果。大量的在离线实验验证了该方法的效果。

二、前置知识

2.1 自动出价策略

当前的在线广告投放过程可以被建模在线规划问题,具体如下:

其中为用户流量的数量;分别为用户流量的预估流量价值(例如预估转化)、流量价格以及预估点击率;代表是否获取该用户流量;则是广告主预设的预算约束和Pay-Per-Click约束。我们的目标是通过对每一条用户流量设置合理的出价来确定对应的,从而在满足各项约束的前提下最大化广告主的目标。根据[1]中的结果,我们在CPC扣费规则下的GSP广告拍卖中可以通过设置如下形式的出价策略以获取最优结果:

其中为出价参数,分别为预算约束和PPC约束对应的最优对偶变量。

由于最优对偶变量需要通过所有潜在用户流量的信息才能在离线环境下计算获得,因此当前平台设计了基于反馈控制[1]或是强化学习[2,3]的自动出价策略,通过对出价参数进行在线实时调控从而优化广告投放效果。我们在此工作中聚焦于基于RL的自动出价策略,并将这一出价参数调控过程建模为一个马尔可夫决策过程(Markov Decision Process)。该马尔可夫过程可以被建模为一个四元组, 其中状态 表征实时的广告投放状态,主要涵盖了当前的实时广告投放情况(包括剩余投放时间、剩余预算、预算花费速度、实时PPC、累计PPC以及当前的出价参数等信息), 代表对出价参数的实时调控。基于 RL的自动出价agent在时段结束时根据其自身的策略以及实时获取的广告投放状态采取参数调控动作 对出价参数进行调控 ( = ), 然后广告投放状态会根据环境动态(Environment Dynamic)转移到 同时获取 。其中 代表了在时间段内利用调控后的出价参数 进行投放后所获取的流量价值。根据[3]中提出的方法,我们可以将在状态下采取的长期期望总收益定义为,其中为直到时段结束时已获取的流量价值, 是在时段直到投放结束固定出价参数为 所能获取的流量价值,为使用离线最优参数所能获取的流量价值,为违反PPC约束的惩罚项。在RL agent的训练过程中,我们将逐步优化策略,使其能够采取最优动作以最大化长期期望总收益,即。

3.2 自动出价的效果评估

本文主要研究采用统一的自动出价策略服务大量差异化广告主时不同广告主/广告计划之间存在的广告投放效果的效果差异现象。通过在线上收集不同广告计划的投放数据,我们首先构建了对应的离线数据集。在这一离线数据集中,我们按照传统方法[3]训练生成了统一的RL自动出价策略,并将该策略应用到离线数据集中的测试广告计划上。通过数据分析,我们可以发现该策略在不同的广告主/广告计划上的表现具有很大差异,如图1所示,针对不同广告计划的广告投放效果分布具有非常明显的长尾效应:后10%的广告计划相较于前10%的广告计划仅能获得76%的广告投放收益。

d6d4a2460c39136cff08c3fab550e213.png
图1:统一RL自动出价策略的广告投放效果分布

同时,我们可以发现不同类型的广告计划由于其在平台中占据的比例不同,其效果也有存在很大的差异。当前的平台中我们可以根据离线最优的值将所有的广告计划划分为三类,包括预算敏感型()、PPC敏感型()、以及综合型()。其中预算敏感型的广告计划在离线数据集和实际的线上平台中占据最大的比例,而另两类的规模则相对较小。对应的,统一生成的RL自动出价策略在应对这三类广告计划时效果也存在很大差异,如表1第一行结果所示,在离线数据集中,综合型广告计划的平均广告投放效果相较于预算敏感型广告计划下降了4.82%,同时PPC敏感型广告计划的PPC约束超限率相较于预算敏感型提升了12.27%。在线上实际应用的过程中这一差异则被进一步放大,如图2所示,预算敏感型广告主的平均广告投放效果和PPC约束的达成情况相较于其他两类都有非常明显的优势。

c025109f5fb09b7ae340baad6c542fd0.png
表1:不同类型广告计划的广告投放效果在不同策略训练设置下的比较
a09c909a029b222fec6e4ec3f2911ed7.png
图2:不同类型广告计划线上广告投放效果和PPC控制情况

通过对广告计划投放数据和RL自动出价策略生成过程的分析,我们发现了两个造成这个问题的主要原因:一方面,不同广告计划所处的广告投放环境,尤其是用户流量的规模和质量的分布情况,具有极强的异质性。不同广告计划的用户流量平均质量之间的差异可以达到15倍,而用户流量规模的差异更是可以达到28倍,使得自动出价agent难以生成一个对所有广告计划都能取得优秀效果的统一策略。另一方面,在自动出价策略生成的过程中我们随机从所有历史广告计划中采集数据进行策略训练,而不同类型的广告计划的占比以及其在广告投放过程中所经历的广告投放状态具有非常明显的差异。如图3所示,预算敏感型的广告主在广告投放过程中经历的状态更注重预算的平稳花费(图3蓝色部分),而PPC敏感型的广告主则更注重PPC的控制(图3绿色部分),因此采用当前的统一策略生成方式会导致不平衡的状态探索和策略训练,导致不同类型广告主间效果的差异。

aeb296954966e28db9dcb74d512ca566.png
图3:不同类型广告计划的广告效果在不同策略训练设置下的比较

我们在表1的第二行和第三行进一步通过离线实验探讨了这两个要素对于广告投放效果的影响。在第二行中我们展示了如果使用同一类型的广告计划作为训练数据,并将其应用到相同类型的广告计划时的效果;在第三行中我们展示了如果训练时使用的广告计划和测试时的广告计划不同时的结果。从中我们可以发现当训练时的广告投放环境和测试时的环境接近,且训练过程中所关注的广告投放状态和实际遇到的广告投放状态较为一致时,生成的投放策略的效果会有较大提升;当训练时的广告投放环境与实际环境有较大差异,且对广告投放状态的探索与实际遭遇的状态有较大偏差时,该策略的广告投放效果会产生断崖式的下降。因此基于以上的观察,本工作的目标就是针对这两个因素设计个性化自动出价框架,为每个广告主/计划提供个性化的具有感知环境上下文能力的自动出价策略从而解决广告投放过程中的效果差异问题。

三、个性化自动出价框架

在本工作中,我们设计了个性化自动出价框架PerBid,通过设计一系列具有环境上下文感知能力的自动出价策略构成候选策略集并为每一个广告计划匹配最合适的策略从而在保障整体策略效果的同时缓解效果差异问题。图4展示了PerBid的主要流程,该框架首先利用一个广告计划画像网络来表征实时广告投放环境并生成广告计划画像。根据该画像我们能够进一步为特定的环境设计能够感知上下文的自动出价策略。由于单一策略无法高效应对所有的差异化环境,因此我们根据不同广告计划所处的环境对广告计划进行聚类,将处于相似环境的广告计划分入同一聚类中,并为每一个聚类生成一个特定的策略从而生成候选策略集。对于一个新到达的广告计划,我们根据其历史数据为其匹配最合适的候选策略,并通过策略本地适配进一步提升策略能力。

c73b8483056718a1baac98ad91e2a7c7.png
图4:PerBid主要流程

3.1 广告计划画像(Ad Campaign Profiling)

我们通过广告计划画像网络来表征动态的广告投放环境。该画像网络的设计如图5所示。在广告计划画像的过程中我们同时考虑了计划层面的静态特征和竞价层面的动态特征,并利用一个广告投放效果分类任务来进一步训练整个广告计划画像网络。具体来说,计划层面特征从宏观的角度描述了当前广告计划所处广告投放环境,包括了预先设置的约束的情况以及其他ID类特征(例如计划ID、目标人群ID、广告投放时段、广告投放渠道等)。我们利用Data Embedding技术提取这些这些高层次静态特征,从而帮助画像网络粗略但是快速得分辨环境的特性。对于竞价层面的动态特征,我们首先针对每个时间段积累的bid log进行Feature Encoding从而为每个时间段生成特征向量,其中包含了该时间段内的用户流量规模、用户流量价格以及用户流量质量(性价比)的分布的相关信息。为了表征广告投放环境随时间的变化规律,我们进一步利用GRU循环神经网络来提取不同时间段之间的时序演进关系。在时间段结束时,其输入为时间段的特征向量 ,而输出则为隐藏层参数。通过结合计划层面特征和竞价层面特征,我们可以生成最终的广告计划画像以表征其所处的广告投放环境。

e31101f1dd4a4356911b94193a8df3a0.png
图5: 广告计划画像网络

3.2 上下文感知出价策略(Context-aware Bidding Strategy)

基于生成的广告计划画像,我们可以进一步设计可感知环境上下文的自动出价策略。在[3]中提出的USCB的基础上,我们保留了动作和长期期望收益的设计,并将先前对广告投放环境的表征融入广告投放状态的设计中,从而希望出价策略在保障泛化性能的基础上高效观测实时投放环境的信息。为了实现对环境的感知,我们首先将广告计划画像中竞价层面的特征作为环境上下文特征直接加入广告投放状态。考虑到广告计划的规模非常庞大,直接将高层次且较为稀疏的计划层面特征加入状态会大幅度提升状态空间的大小,从而加剧数据稀疏性和对不同状态的不平衡的探索和训练。因此我们并不直接将计划层面特征加入状态,而是将其用于改进对实时投放情况的表征,希望使策略能够在理解环境上下文信息的基础上实现更准确的实时投放情况表达。具体来说,可以被表达为,其中代表从广告计划画像的竞价层面特征中直接获取的环境上下文信息。则代表改进后的实时投放情况表征,其具体定义如下:

其中 和 分别是时间段内所花费的预算和获得的广告点击;预设的约束值 , , 以及广告计划的持续时间 被用于归一化 和 , 并将 和 映射到一个相对值。我们进一步利用不同广告计划有关用户流量规模在不同时段分布的知识(即个性化的权重向量)来修正 ,使其能够感知用户流量规模随着时间的演变。

3.3 候选策略生成器(Candidate Strategies Generation)

由于单一策略无法高效应对所有的环境,因此我们进一步生成一系列不同的候选策略以应对差异化的环境。我们通过聚类的手段将所有的广告计划分入数个聚类中去,每个聚类代表一类处在类似环境中的广告计划,然后为每个聚类生成一个特定的自动出价策略(agent)以应对不同的广告投放环境。这个候选策略集的生成过程可以被划分为三个步骤,包括聚类初始化、自动出价agent训练以及广告计划的重分配。具体的算法流程如算法1所示,我们首先根据预设的规则(例如广告主预设PPC的值等)初始化所有广告计划对应的聚类(行1-3);随后,在训练步骤中我们对每一个聚类进行并行的出价agent训练。在每一个训练轮中,我们在该聚类对应的广告计划中随机选择一个并对其广告投放状态进行探索(行7-12),并将对应的观测数据存储入对应聚类的经验回放池中(行13)。在每一个训练轮探索结束后,我们从经验回放池中采样一系列历史经验,并利用基于actor-critic的强化学习训练算法对出价agent进行更新(行14-15)。由于不同的聚类拥有相同的训练和探索资源,而每个聚类所覆盖的广告计划的规模不同,因此覆盖规模较小的聚类能够针对罕见广告投放环境下的广告投放状态进行集中的探索和训练,避免了策略生成过程中的不平衡。因为预设的聚类初始化方法往往只能获取次优的广告计划分类,因此在训练步骤结束后,我们进一步根据不同广告计划在不同聚类对应出价agent下的表现进行广告计划的重分配,将广告计划动态得重新划分到最合适(投放效果最好)的聚类中去。通过重复训练步骤和广告计划重分配步骤,我们可以逐渐生成若干个对应不同类型广告投放环境的稳定的广告计划聚类,并生成对应的高质量候选投放策略(agent)。

a126c47919f58693c588cd4e273d99ec.png

3.4 策略匹配与自适应(Strategy Matching and Adaptation)

在完成了候选策略生成后,我们利用广告计划的历史数据进行计划和策略之间的匹配以及进一步的本地化适配。在策略匹配的过程中,对于一个待匹配策略广告计划,我们首先采集其之前天的历史数据,并利用个候选策略在这些历史数据上进行离线模拟竞价,从而获得对第天的结果。基于前天的结果,我们通过加权平均可以获得一个历史效果向量代表每个候选策略在前天历史数据上的平均表现。我们选择平均表现最好的候选策略作为匹配的策略。对于缺乏历史数据的冷启动广告计划,我们为其匹配覆盖面最广且在所有广告计划上平均效果最好的出价策略作为默认策略。策略本地化适配和策略生成过程中的训练步骤类似,只是所有的训练数据都来自于同一广告计划的历史数据。由于策略的本地化适配过程同时也可能造成过拟合的问题,因此仅应用于初始效果不佳的广告计划上。

四、实验结果

4.1 离线实验

离线实验数据集采集自阿里巴巴展示广告平台,共包含超过3500个广告计划并被划分为训练集、验证集、测试集。我们用如下的效果指标表征自动出价策略在单一广告计划上的投放效果:

其中前半部分为归一化后的广告投放结果,而后半部分则为违反PPC约束的惩罚项。为了全面地展示PerBid在保障总体效果和公平性上的表现,我们同时展示了整体平均效果以及 和 用于代表后30%和10%广告计划的平均效果。此外,我们还考虑了两类常用的公平性指标(Generalized Gini Social Welfare Function)[4]和(Gini Coefficient)[5]。其中的定义如下:

其中代表将所有广告计划的结果从小往大排列后组成的向量。通过赋予效果差的广告计划更大的权重,该指标可以同时考虑公平性和整体效果。的定义如下:

直接表征了不同广告计划投放效果的离散程度,越大则说明不公平现象越明显。

我们在离线实验中考虑如下几个对照方法:1)M-PID [1]:使用多变量联合反馈控制进行参数调控。2)DRLB [2]:基于强化学习的方法,定义特定状态下采取特定参数调控动作的奖励值为所有出现该状态动作的轨迹的总体广告投放效果的最大值,通过设计独立的RewardNet进行奖励值的预估。3)Baseline [3],当前线上应用的基于actor-critic的强化学习算法USCB。4)Baseline w. Profile:如前文4.2描述在基线USCB算法的基础上改进得到的可感知环境上下文的自动出价策略。5)Fixed Agents (OPT): 在Baseline w. Profile的基础上将单一策略拓展为三个候选策略,其广告计划聚类仅根据预设规则进行划分而不进行广告计划的动态重分配。在策略匹配的过程中视为能够实现100%准确率的最优匹配。6) PerBid (OPT):本文提出的个性化自动出价框架,如前文4.3描述生成三个候选策略对应,在策略匹配的过程中视为能够实现100%准确率的最优匹配。7) PerBid (Match) :本文提出的个性化自动出价框架,生成三个候选策略且在策略匹配的过程中使用4.4提出的基于历史数据的策略匹配算法(匹配过程仅使用前一天的历史数据)。具体的离线实验结果如下表所示,从中我们可以发现PerBid在能够保障策略匹配准确率的情况下相较于其他算法在综合效果和保障公平性方面具有非常明显的效果提升。同时,在使用有限历史数据的情况下PerBid也可以达成74.53%的匹配准确度并取得不俗的效果。在图6中我们进一步展示了各方法的效果分布,可以发现PerBid能有效缓解长尾效应提升公平性。在图7中我们展示了使用PerBid后在不同类型广告计划上获得的平均效果。

8470ee4a353366929b2bd66bdbff8492.png
表2:不同方法的广告投放效果和公平性指标
f55721713f1e9a6baad012e24021463c.png
图6:不同方法的广告投放效果分布
d9e1e1be2e3155d85ad9a0f996bc15b0.png
图7:PerBid在不同类别广告计划上的效果

4.2 在线实验

我们将提出的框架部署在阿里巴巴展示广告平台中,并将其与线上使用的基础USCB算法进行对比。并在一定时间内选取了1%的全体广告计划进行了在线A/B实验,具体的实验设置如下:1) 为了保障测试公平性,我们对所有的广告计划使用相同的固定权重向量进行实时投放状态修正,同时省略了环境上下文特征。2) 我们根据广告计划的最优出价参数 进行聚类划分并生成了三个候选自动出价策略,同时我们单独利用所有的类型的广告计划生成了一个默认策略以应对冷启动广告计划。3) 线上实验中我们使用前七天的历史数据进行策略匹配来选择最优的候选策略。从线上实验的结果中我们可以发现PerBid可以提升达8.02%,提升达8.53%,提升达10.85%,展现了PerBid在提升综合效果和保障公平性两方面的能力。

五、结论

在本文中,我们揭示了使用统一自动出价策略服务全体广告主的效果差异问题,并分析了其主要原因。为了解决广告主之间的效果差异问题,我们提出了一个个性化的自动出价框架PerBid。在这个框架中,我们首先提出了一个广告计划画像网络来建模广告环境,基于此设计了上下文感知的自动出价策略。然后,我们根据它们的特征将广告计划分组为几个簇,并为每个簇分配特定的策略。最后,我们提出了一个匹配算法来匹配异质的广告计划与最合适的策略。我们在真实世界的数据集上进行了全面的离线实验和在线 A/B 测试,以验证该框架在提高平均性能和解决效果差异问题方面的有效性。

参考文献

[1] Xun Yang, Yasong Li, Hao Wang, Di Wu, Qing Tan, Jian Xu, and Kun Gai. 2019. Bid optimization by multivariable control in display advertising. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 1966–1974.

[2] Di Wu, Xiujun Chen, Xun Yang, Hao Wang, Qing Tan, Xiaoxun Zhang, Jian Xu, and Kun Gai. 2018. Budget constrained bidding by model-free reinforcement learning in display advertising. In Proceedings of the 27th ACM International Conference on Information and Knowledge Management. ACM, 1443–1451.

[3] Yue He, Xiujun Chen, Di Wu, Junwei Pan, Qing Tan, Chuan Yu, Jian Xu, and Xiaoqiang Zhu. 2021. A Unified Solution to Constrained Bidding in Online Display Advertising. In Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. ACM, 2993–3001.

[4] John A Weymark. 1981. Generalized Gini inequality indices. Mathematical Social Sciences 1, 4 (1981), 409–430.

[5] Sen, Amartya. 1997. On economic inequality. Oxford university press.

END

1dfa72d7b5506516db2597dd6557e7ba.gif

也许你还想看

Bidding模型训练新范式:阿里妈妈生成式出价模型(AIGB)详解

新一代自动出价范式:在线强化学习SORL框架

Auction Design in the Auto-bidding World系列一:面向异质目标函数广告主的拍卖机制设计

万字长文,漫谈广告技术中的拍卖机制设计(经典篇)

USCB:展示广告约束出价问题的通用解决方案

关注「阿里妈妈技术」了解更多~

e75ae0ca9b1c8b7caf557e9a48aeee21.gif

喜欢要“分享”,好看要“点赞”哦ღ~

↓欢迎留言参与讨论↓

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值