Model-based RL自动出价算法的演进之路

▐ 导读

近年来,强化学习自动出价算法已成为智能投放领域的标志性技术,然而其所存在的在离线不一致、线上数据覆盖空间受限等关键问题尚未被完全解决。在本文中,我们提出一种Model-based RL(MBRL)自动出价算法训练新范式,进一步缓解上述两点挑战。经过一年的迭代,MBRL自动出价算法已在阿里妈妈万相台无界版全站推场景、货品场景、关键词场景和精准人群推广场景中完成扩流,显著增强了投放效果。未来,在基于监督学习的预训练方法逐渐收敛的趋势下,MBRL以其高效的样本利用率与基于探索超越数据集的能力,将进一步赋能生成式自动出价算法,焕发新的活力。

1. 概述

近年来,出价产品智能化已经成为在线广告行业的主要发展趋势之一。广告主只需要表达预算、优化目标及拿量成本,自动出价(Auto-bidding)算法就会代表广告主在海量流量上进行自动化竞价,以满足广告主的营销诉求。然而每个广告主的竞价流量数量众多且复杂多变,自动出价算法需要找到一个能够在整个投放周期内满足设定成本并效果最优的出价序列,是一个复杂的序列决策问题。随着机器学习的发展,从19年开始,以擅长序列决策问题著称的强化学习(Reinforcement Learning,RL)算法逐渐用于自动出价算法中。强化学习以试错学习(Trial&Error)为基本思想,在没有明确的最优出价序列的监督信号条件下,通过学习不同出价序列的反馈数据,逐步优化出价策略。至今,强化学习出价算法已经在业界大规模落地,显著提高了投放效果。

1.1 强化学习自动出价算法的范式变迁

纵观强化学习自动出价算法的发展历程,整体上经过了由基于离线仿真器训练(Simulation-based RL Bidding,简称SBRL,代表算法USCB [1]等)到抛弃离线仿真器、直接利用线上真实数据训练(Offline RL Bidding,简称ORL,代表算法CQL [2]等)的范式转变*(如图1中①和②所示)。众所周知,强化学习训练中的试错学习过程需要与问题对应环境交互以产生反馈样本,然而出于安全和效率考虑,线上竞价环境无法在强化学习训练中使用,因此一个自然的想法便是人为构建一个可以模拟线上竞价环境的离线仿真器用于训练,这就是SBRL范式。在19年到21年间的强化学习自动出价算法多采用SBRL范式进行训练。然而当时的离线仿真器多采用简单规则构建,与线上真实环境的gap很大,在离线不一致问题较为严重(见3.3.2实验1)。为缓解在离线不一致问题,从22年开始,一种主流的解决思路是能否抛弃离线仿真器、直接利用线上真实数据进行训练,这便是ORL范式的基本思路。然而线上真实数据集往往由单一的线上主模型产生,其覆盖的状态-出价空间有限,在没有离线仿真器可以进一步交互的条件下,ORL无法利用到数据集覆盖空间之外的状态-出价数据进行训练,导致训练得到的自动出价策略通常被限制在线上真实数据集附近,优化幅度较小(见3.3.2实验2)。

e631c6dba7888312d7c648cfa61babc8.png
图1. 强化学习自动出价算法的范式变迁。整体上其经过了由基于离线仿真器训练(SBRL)到抛弃离线仿真器、直接利用线上真实数据训练(ORL)的范式转变。本文提出了一种基于环境模型建模的新强化学习自动出价范式(MBRL)。

*图1展示的均为在没有进一步与线上竞价环境交互下的强化学习自动出价范式变迁。实际上,可以设计线上探索方法以扩充数据集&获得新反馈,这种线上探索的方法可以与上述每一种offline范式结合,升级为online的范式。online范式升级与图1展示的范式变迁正交,本文不做重点讨论,online范式的详细方法可见[3]。

1.2 MBRL自动出价算法演进之路Overview

23年10月,我们开始尝试基于环境模型的强化学习自动出价算法训练新范式(Model-based RL Bidding,简称MBRL)。如图1中③所示,MBRL的基本思路为:基于线上真实数据,利用深度学习训练一个泛化性较好的神经网络环境模型以模拟线上竞价环境,其所产生的数据在经过置信度处理后作为离线虚拟数据丰富训练集,与线上真实数据共同训练出价策略,构成 “虚实融合” 的训练新范式。MBRL避免了SBRL中对于离线仿真器的不精确(如果做精准会很复杂)的人工构建,通过深度学习实现对线上真实数据所包含竞价环境信息的提取,大幅缓解了在离线不一致问题;对比ORL范式,MBRL进行了丰富且可靠的训练数据扩充,打破了ORL中出价策略在只在数据集附近优化的束缚,为优化幅度的提升开拓了空间。

24年,我们将MBRL成功迁移到具有ROI约束的TargetROAS计划上,其中我们新增了Lagrange对偶梯度法计算ROI约束下的出价策略梯度,并利用神经网络环境模型提供梯度计算所需数据,提出了具有收敛性理论保证的Lagrange-MBRL算法。同年,我们针对MBRL训练中存在的问题进行技术打磨,大幅提升了其训练稳定性。

至今,MBRL已经在阿里妈妈万相台无界版的货品场景、关键词场景、精准人群推广场景和全站推场景中完成扩流,在大盘覆盖计划中带来 消耗 +3.5% / GMV +4.5% 的收益,显著增强了广告主的投放成效。

2. Preliminary:自动出价问题建模

为了便于后续算法展开,在本节我们给出自动出价问题的形式化建模并描述了出价的调控过程。考虑一个广告主的单个投放计划在一个投放周期(设定为一天)内的投放过程,自动出价问题可以统一形式化为:

99c4469967522d45a26d901b5e367b44.png

其中 代表第 个流量是否竞得 和 分别代表第 个流量的价值和竞得的扣费, 为第 个成本约束, 为广告主设定的预算。在本文中,我们主要考虑在阿里妈妈万相台无界版中消耗占比最多的两类自动出价问题:

  • BCB(Budget Constrained Bidding)问题:只有预算约束,没有成本约束;

  • TargetROAS(Target Return on Ad Spend )问

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值