导读:出价产品智能化成为行业发展趋势,自动出价(Auto-bidding)已成为互联网广告主营销的主流,大商家数据量大往往在统一模型中更占优势,为提升中小商家效果,我们开启探索“千店千模”之路。
摘要
随着深度学习技术的发展,广告平台推出了多样化的自动出价服务,协助广告主实现智能决策。然而由于不同的广告主往往处于具有极强异质性的广告投放环境中,因此当前广泛采用的“使用统一自动出价策略服务全体广告主”的方法可能使得不同广告主的广告计划的投放效果存在较大的差异。在本文中,我们提出了个性化自动出价框架PerBid(Personalized Automated Bidding Framework),将传统的仅有单一策略(agent)的自动出价策略拓展为多个能够感知上下文(context-aware)的策略(agent),其中每个策略对应一类特定的广告主聚类(Advertiser Cluster)。具体来说,我们首先设计了广告计划画像网络(Ad Campaign Profiling Network)用于建模动态的广告投放环境。之后,我们通过聚类技术将差异化的广告主分为多个类并为每一类广告主设计一个特定的具有上下文感知能力的自动出价策略(agent),从而实现为每个广告主匹配特定的个性化策略。
论文:A Personalized Automated Bidding Framework for Fairness-aware Online Advertising
链接(点击↓阅读原文):https://dl.acm.org/doi/pdf/10.1145/3580305.3599765
一、背景
随着电子商务的快速发展,在线广告成为了大量品牌和商户推广产品的主要渠道。为了更好地服务广告主,在线广告平台推出了各类广告策略服务,提供了基于机器学习的算法来辅助广告主实现广告投放过程中的智能决策。其中一个最具代表性的例子就是基于强化学习(Renforcement Learning,RL)的自动出价策略。然而由于每个广告主自身数据的稀疏性以及平台计算资源的限制,当前的自动出价策略往往是以一种统一的方式生成的,也就是平台收集所有广告主广告计划的数据,利用这些数据训练生成一个统一(unified)的自动出价策略,然后再将这个策略应用到所有广告主的广告计划上。然而这样统一的自动出价策略对于每个单一个体广告主和广告计划来说并不是最优的。通过离线数据分析,我们发现了问题背后的两个潜在原因:一方面,不同广告主在不同时间的广告投放过程中面临差异化的广告投放环境,包括用户流量的分布情况、流量价格的差异等等。当前统一的自动出价策略未能深入的感知不同广告主所面临环境的差异性,因此导致不同广告主在使用同样的自动出价策略时所获取的广告效果具有较大的差异。另一方面,不同类型广告主和广告计划在线上平台所占据的比例有很大的差异,且其在利用基于RL的广告投放策略进行投放的过程中面对的广告投放状态(state)也具有很大的不同,导致了RL训练的过程中存在不平衡的状态探索(state exploration),使得策略在服务那些状态未能被完全探索的广告主时的效果不如那些状态被充分探索的广告主。因此在本工作中,我们研究如何设计个性化的基于RL的自动出价策略,使其能够充分观测差异化的环境,并能够高效地探索不同的广告投放状态,进一步提升所有广告主的效果。设计该自动出价策略主要面临两大挑战。首先,广告投放环境随着时间会发生快速的变化,同时决定环境的因素非常多样,包括投放时间、目标人群、其他广告主的策略等等,使得难以使用传统的建模方法对其进行建模,需要设计高效的方式来获取广告投放环境的上下文信息。其次,即使对广告投放环境进行了合理的建模,直接将其加入基于RL的广告投放策略当中会大幅度扩张广告投放状态的状态空间,从而进一步加剧数据的稀疏性和不平衡的状态探索,使得难以高效地生成能够感知上下文的自动出价策略。为了解决上述挑战,我们提出了个性化自动出价框架PerBid。该框架不再仅生成单一的自动出价策略,而是通过生成一系列能够感知上下文的候选自动出价策略以应对不同类型的广告计划及差异化的广告投放环境,并通过匹配不同的广告主/广告计划和特定的个性化出价策略进一步提升个体广告主的投放效果并缓解效果差异现象。具体来说,PerBid首先通过广告计划画像网络来表征和建模当前广告主/广告计划所处的投放环境,并基于对环境的建模和表征进一步设计具有上下文感知能力的自动出价策略。之后,我们将广告主/广告计划根据其所处广告投放环境的差异通过聚类技术划分入若干个聚类,并为每一个聚类训练生成一个特定的自动出价策略。最后,对于一个广告主/广告计划,我们根据历史信息为其匹配最合适的候选策略,并通过本地适配进一步提升其效果。大量的在离线实验验证了该方法的效果。
二、前置知识
2.1 自动出价策略
当前的在线广告投放过程可以被建模在线规划问题,具体如下:
其中为用户流量的数量;分别为用户流量的预估流量价值(例如预估转化)、流量价格以及预估点击率;代表是否获取该用户流量;则是广告主预设的预算约束和Pay-Per-Click约束。我们的目标是通过对每一条用户流量设置合理的出价来确定对应的,从而在满足各项约束的前提下最大化广告主的目标。根据[1]中的结果,我们在CPC扣费规则下的GSP广告拍卖中可以通过设置如下形式的出价策略以获取最优结果:
其中为出价参数,分别为预算约束和PPC约束对应的最优对偶变量。
由于最优对偶变量需要通过所有潜在用户流量的信息才能在离线环境下计算获得,因此当前平台设计了基于反馈控制[1]或是强化学习[2&