Bidding模型训练新范式:阿里妈妈生成式出价模型(AIGB)详解

阿里妈妈推出AIGB(AI Generated Bidding),这是一种基于生成式模型的出价优化方案,不同于传统的强化学习视角,它将策略建模为条件生成模型,以解决自动出价的序列决策问题。AIGB通过最大似然估计训练,能应对多种出价类型和约束,提供更好的策略可解释性和快速反馈能力。
摘要由CSDN通过智能技术生成

导读: 今天以ChatGPT为代表的生成式大模型让科技行业重新兴奋起来,也为广告营销注入了新的想象力。生成式大模型几乎一定会带来用户与互联网产品交互模式的改变,进而颠覆广告营销模式。广告技术人,你们准备好了吗?阿里妈妈技术已提前在该方向布局,并推出了新的广告营销智能技术体系,今天将揭露出其神秘面纱的一角,窥探背后的思考和实践。

▐ 摘要

出价产品智能化成为行业趋势,极简产品背后则是强大的自动出价的支撑,其技术不断演进走过了3个大的阶段:PID控制、RL-based Bidding、SORL(Sustainable Online RL),那么下一步代际性技术升级是什么?今天以ChatGPT为代表的生成式大模型以汹涌澎湃之势到来,几乎一定会颠覆广告营销模式,一方面,新的用户交互模式会孕育新的商业机会,给自动出价的产品带来巨大改变;另一方面,新的技术理念和技术范式也会给自动出价算法带来革命性的升级。阿里妈妈技术团队提前布局,以智能营销决策大模型AIGA(AI Generated Action)为核心重塑了广告智能营销的技术体系,并衍生出以AIGB(AI Generated Bidding)为代表的各种领域技能模型。AIGB是一种基于生成式模型构造的出价模型优化方案,与以往解决序列决策问题的强化学习视角不同,其将策略建模为条件生成模型,从而消除了以往强化学习视角下的复杂性问题。具体实现上,将出价、优化目标和约束等具备相关性的指标视为一个联合概率分布,并以优化目标和约束项为条件,生成相应出价策略的条件分布。训练时将历史次优投放轨迹数据作为训练样本,以最大似然估计的方式拟合轨迹数据中的分布特征;推断时基于约束和优化目标,以符合分布规律的方式输出出价策略。本文提出的方案可避免传统RL方案中的分布偏移和策略退化问题,又具备满足不同出价类型和不同约束的灵活性。通过AIGB的技术研究和线上实践,我们愈发地感受到新的技术浪潮正在朝我们奔来,AIGB只是这一切的开始...

一、背景

1.1 出价产品智能化成为行业趋势

广告平台吸引广告主持续投放的核心在于给广告主带来更大的投放价值,出价产品的智能化已成为行业趋势并加以重点建设的能力(如图1)。以阿里妈妈为代表的互联网广告平台不断地探索流量的多元化价值,并设计更能贴近营销本质的自动出价产品,广告主只需要简单的设置就能清晰的表达出营销诉求。极简产品背后则是强大的出价策略支撑,广告主出价策略从海量数据中挖掘更好的营销模式,提升广告主对特定价值的优化能力,赋能广告主投放。

图1:出价产品的演进趋势,智能化逐步成为互联网广告产品的标配
图1:出价产品的演进趋势,智能化逐步成为互联网广告产品的标配

1.2 自动出价技术的不断演进

阿里妈妈技术团队多年来致力于极致的优化自动出价策略,帮助广告主获得最好的投放效果,其自动出价策略的技术演进可以大体分为三个大的阶段,具体如下图。

图2:典型的自动出价技术演进路线,从预算消耗控制->RL-based Bidding->SORL,下一步代际性升级是什么?
图2:典型的自动出价技术演进路线,从预算消耗控制->RL-based Bidding->SORL,下一步代际性升级是什么?

第一阶段:预算消耗控制,通过控制预算的消耗速度尽可能平滑来优化效果,一般通过经典的控制算法,如PID等。在假设竞价环境中流量价值分布均匀的情况下,这种方法能够达到比较好的效果。

第二阶段:RL-based Bidding,现实环境中的竞价环境是非常复杂且动态变化的,只控制预算无法满足更多样的出价计划的进一步优化。AlphaGo的惊艳表现,展现了强化学习的力量,而自动出价是一个非常典型的序列决策问题,在预算周期内,前面花的好不好会影响到后面的出价决策,而这正是强化学习的强项,因此第二阶段我们用了基于强化学习的Bidding。Simulation based bidding 的一些工作[1]奠定了我们在广告主报价领域的领先地位。

第三阶段:SORL,它的特点是针对强化学习中离线仿真环境与在线环境不一致。我们直接在在线环境中进行可交互的学习,这是工程设计和算法设计联合的例子。SORL[2]上线之后,很大程度上解决了强化学习强依赖于仿真平台的问题。

今天以ChatGPT为代表的生成式大模型让科技行业重新兴奋起来,也为广告营销注入了新的想象力。生成式大模型几乎一定会带来用户与互联网产品交互模式的改变,例如,多模态交互式对话方式会取代搜索引擎的地位,以广告位拍卖为基础的互联网广告的逻辑也会发生改变。一方面,新的用户交互模式会孕育新的商业机会,给自动出价的产品带来颠覆的改变;另一方面,新的技术理念和技术范式也会给自动出价算法带来革命性的升级。

如今,革命性升级已经到来!

二、相关工作

2.1 自动出价建模

考虑到广告目标、预算和𝑀 个KPI约束,计划的诉求可以通过(LP1)表示为统一的带约束竞价问题。

如果已经知道流量集合的全部信息,包括能够触达的每条流量i的流量价值 和成本 等,那么可以通过解决线性规划问题(LP1)来获得最优解 。然而,在实际应用中,我们需要在流量集合未知的情况下进行实时竞价。由于在线广告池的动态变化以及每天访问用户的随机性,很难通过准确的预测来构建流量集合。因此,常规的线性规划解决方法并不完全适用。所以在实际应用中,通过对上述出价公式的一些变换,构造一个最优出价公式,将原问题转化为求解最优参数的问题,从而大大降低了在线情况下求解此问题的难度。

最优的出价公式为:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值