KDD'23 | 强化学习在广告延迟曝光情形下的保量策略中的应用

本文分享阿里妈妈外投广告UD效果&用增算法团队针对广告延迟曝光问题通过强化学习 pacing 策略来完成曝光保量等各类业务目标的算法实践,相关技术方案已总结为论文发表在 KDD 2023,欢迎阅读交流。

论文:RLTP: Reinforcement Learning to Pace for Delayed Impression Modeling in Preloaded Ads

链接(点击↓阅读原文)https://arxiv.org/pdf/2302.02592.pdf

1. 背景

预加载是开屏广告中的一种常见策略:在当前流量请求中,曝光的广告是过往请求中所填充的,而本次填充的广告在后续的某次流量请求中才会曝光。媒体侧将流量请求发送给阿里侧 DSP 来询问是否选择本条流量,我们需要在完整投放周期后满足广告主对曝光量、点击率等目标的诉求。由于预加载,我们只能决定流量的选择与否,但最终曝光与否由媒体策略决定。预加载策略引出的延迟曝光现象给保量投放带来挑战主要包括:当前观测的曝光量实际上是不完整的,还有部分已选择流量会在未来曝光,因此当前无法得知真实曝光量。如不考虑潜在曝光量进行 pacing 调控,可能会导致超投影响收益;如果过度考虑,则可能会造成缺量影响效果。

预加载广告的两个特点启发我们通过强化学习解决:首先是反馈信号延迟性,即只有当投放结束后才能准确观测是否完成广告主各类目标;其次是媒体预加载策略对我们黑盒,很难精确模拟。强化学习的目标是最大化长期奖励,通过与环境交互来改进 policy,具备应对上面两个特点的可能性。我们提出曝光保量框架 RLTP: Reinforcement Learning to Pace,学习一个 pacing agent 来直接输出流量选择概率,将保量策略从多阶段“曝光预测模型+人工规则+PID调节”简化至端到端的 pacing agent。为满足广告主对于曝光量、点击率等方面的要求,设计 reward estimator 来鼓励接近预设曝光量、选择高价值流量、惩罚超量及选择概率剧烈变化。实验验证了端到端 pacing agent 完全有替代多阶段框架来完成曝光保量的能力。

2. 引言

本文针对预加载广告的曝光保量策略展开研究。当用户打开媒体 App 时,媒体侧将流量请求发送给阿里侧 DSP (需求方平台)来询问是否选择本条流量,我们预估流量价值后做出选或不选的决策,如果选择会填充我方的广告并返回给媒体,总体目标是在完整的投放周期结束后满足广告主对于曝光量、点击率等目标的诉求。

c4a2ff450e64a5694e93b83f507daed7.png

由于预加载的存在,我们只能决定流量的选择与否,但最终广告曝光与否是由媒体策略决定的,我方不能感知媒体策略。因此,预加载策略引出的延迟曝光现象给以保量为主要诉求的投放活动带来一定的算法挑战。

  • 假设我们选择流量并填充广告后会立即在媒体曝光,那么可以通过 PID Controller 等 pacing 算法,根据实时的观测曝光量来每过一定间隔 (通常是 5min) 调节初始的流量选择概率,完成保量的目标;同时可以根据对请求按照预估 CTR 分层,建立多组 PID 系数来服务于不同层的流量,完成点击率的目标 [1]。

  • 但当存在延迟曝光现象时,当前观测到的曝光量实际上是不完整的,还有部分已经选择的流量将会在未来产生曝光,因此真实曝光量在当前无法得知。如果不考虑这部分潜在曝光量来进行 pacing 调控,最终会超投影响利润;如果过度考虑了这些量,又会造成缺量,影响广告主后续和我们的合作。

综上,针对延迟曝光,需要设计特定的算法调控方式来满足广告主诉求。一种很实用的方案是根据历史投放数据学习一个模型,基于当前 context 预测潜在曝光量 (历史数据中可获取每一个曝光对应的广告填充时刻),从而在

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值