手推A Unified Solution to Constrained Bidding in Online Display Advertising论文

最新推荐文章于 2023-12-08 18:20:14 发布

爱学习的菜鸟罢了

最新推荐文章于 2023-12-08 18:20:14 发布

阅读量1.1k

点赞数

分类专栏：大数据文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/qq_34387470/article/details/130415013

版权

A Unified Solution to Constrained Bidding in Online Display Advertising：一种对在线展示广告约束出价问题的通用解决方案未开放但是可以搜到

NeuralAuction: 电商广告中的端到端机制优化方法 https://arxiv.org/abs/2106.03593

一种使用真负样本的在线延迟反馈建模 https://arxiv.org/abs/2104.14121

广告主端的“猜你喜欢”：在线广告投放策略推荐系统 https://arxiv.org/abs/2105.14188

基于多智能体协同竞价博弈的电商搜索广告多目标竞价优化 https://arxiv.org/abs/2106.04075

基于深度置信度感知学习的广告投放探索方案 https://arxiv.org/abs/2012.02298

A Unified Solution to Constrained Bidding in Online Display Advertising

一种对在线展示广告约束出价问题的通用解决方案

摘要：本文提出了一种通用的解决方案，以解决在线展示广告中的约束出价问题。在在线展示广告领域，广告主通常通过实时竞价来获得曝光机会。然而，在大多数广告平台中，广告主最常见的需求是在预算和某些KPI约束下，最大化竞得流量的价值，例如，在预算和点击成本约束下，最大化点击量。不同的广告主有着不同的投放需求，这些需求在营销目标（如点击、曝光）、KPI约束类型（如点击成本上限、点击率下限）以及KPI约束数量三个维度上存在很大差异。现有研究通常仅针对某一特定需求，缺乏通用性，因此很难达到最优的投放效果。本文的目的是提供一种通用的解决方案，使得广告主能够在各种不同的约束条件下最大化竞得流量的价值。

本文通过将广告主的投放需求形式化为约束出价问题，并推导出统一的最优出价策略，提供了一种解决在线展示广告中约束出价问题的通用解决方案。该方案的最优出价公式包含m个参数，其中m为约束数量。为了解决实际应用中竞争环境不断变化导致的确定最优出价参数的难题，本文还提出了一种强化学习方法，该方法能够在投放过程中动态调整出价参数，使其尽可能逼近最优参数。通过对强化学习过程进行优化，使其能够更快地收敛到最优解。该方法被称为“统一约束出价在线解决方案”（USCB）。实际应用中，USCB已在阿里妈妈广告投放策略平台上得到了部署，为各个业务线提供出价参数调控服务，为平台带来了显著收益增长和广告主的投放效果提升。

摘要：

在在线展示广告中，广告商通常通过实时竞价获取广告展示机会。在大部分广告平台上，广告商的典型需求是在预算和关键绩效指标约束下最大化获得展示的总价值（例如，在预算和每次点击成本上限的约束下最大化点击次数）。这类需求在价值类型（如广告曝光/点击）、约束类型（如每单位价值的成本）和约束数量上有所不同。现有研究通常关注特定需求，或难以实现最优。在本文中，我们将此需求形式化为一个有约束的竞价问题，并推导出一个代表广告商的统一最优竞价函数。最优竞价函数使得广告商仅需使用m个参数（即约束数量）就能为所有展示计算出竞价。然而，在实际应用中，由于拍卖环境的非稳定性，确定参数并非易事。我们进一步提出了一种强化学习（RL）方法，以动态调整参数实现最优，递归优化特性显著提高了收敛效率。我们将这个公式和RL方法统称为“受约束竞价的统一解决方案”（USCB）。USCB已在工业数据集上验证其有效性，并已在阿里巴巴展示广告平台上投入使用。

CCS概念：

信息系统 → 计算广告；展示广告

关键词：

实时竞价；展示广告；竞价优化

1引言

近年来，网络展示广告已发展成为最具影响力的行业之一，2019年美国的收入高达598亿美元[13]。实时竞价（RTB）在在线展示广告领域取得了巨大成功[19, 24]，广告商们需要针对每一个广告展示机会提交竞价。最高出价者将获得广告展示机会，支付的费用则为次高出价。这种分配和支付规则被称为第二价格拍卖（SPA），在在线展示广告行业中发挥着重要作用[8]。

当前，参与在线展示广告拍卖的广告商主要有两类：品牌广告商和效果广告商[20]。品牌广告商关注长期增长和知名度，他们制定广告活动，目标通常是在一定约束条件下向尽可能多的受众展示广告。这些约束条件通常与“浅层”绩效指标有关，如每次展示/点击的平均成本。而效果广告商则试图在一些“深层”绩效指标的约束下最大化赢得展示的总价值，例如在平均每次转化成本约束下最大化转化次数。为了满足这些需求，广告平台通常为客户提供相应的竞价策略，如谷歌、脸书和阿里巴巴[2, 9, 11]。

现有研究通常关注解决特定问题以满足广告商的不同需求。例如，文献[21, 23]尝试在一个和两个约束条件下优化广告活动的目标。然而，约束条件在类型和数量上通常是多样的，可能涉及一个或多个不同的关键绩效指标（KPI），包括但不限于预算、千次展示成本（CPM）、每次点击成本（CPC）、每次行动成本（CPA）、投资回报率（ROI）、点击率（CTR）和每次展示转化（CPI）。尽管文献[16]试图提供一个统一的解决方案，但竞价函数并非最优，因为它旨在最小化KPI误差，在KPI约束不合适时（例如在100美元预算和100美元CPC约束下最大化点击次数）可能导致糟糕的结果。因此，设计一个统一的解决方案以最优地满足各种广告商需求并适用于现实世界的广告系统具有重要意义。

在本文中，我们深入挖掘在线展示广告广告商的核心需求，并通过线性规划[6]将其构建为一个受约束的竞价问题。具体而言，广告活动的核心目标是在一个或多个约束条件下，如预算约束和关键绩效指标约束，最大化赢得展示的总价值。为了让每个广告活动都能参与拍卖并充分利用实时竞价的流动性，我们采用原始-对偶方法[3]为受约束的竞价问题推导出一个统一的最优竞价函数。最优竞价函数由m个核心参数决定，其中m是约束条件的数量。

然而，确定核心参数并非易事。由于展示在一天内按顺序到达，提前在没有完整展示集的情况下计算核心参数具有很大挑战性。同时，从特定广告活动的角度来看，拍卖环境是动态且不可预测的[21]。因此，历史数据中的核心最优参数可能与实际最优参数有很大偏差。因此，我们将其视为基于受约束竞价基本表述的顺序参数调整问题，并尝试通过强化学习（RL）[15]解决这个问题。得益于受约束竞价表述中的递归优化特性，收敛效率得到显著提高。

为了评估我们的解决方案在受约束竞价问题中的有效性和通用性，我们首先构建了基于现实世界的工业数据集，然后将我们的方法与针对三个不同受约束竞价问题的最先进方法进行比较。实验结果表明，我们的方法明显优于其他方法。

我们的贡献可以概括为以下三个方面：

• 在我们所知范围内，这是首个为在线展示广告中受约束的竞价问题推导出统一最优竞价函数的研究。

• 我们提出了一种基于强化学习的方法来搜索关键参数调整策略，这一策略具有通用性、工业适用性和有效性。

• 基于现实世界工业数据集的实证评估证实了我们解决方案的有效性。此外，该解决方案已在淘宝展示广告系统中部署并得到验证。

本研究的其余部分安排如下：第2节描述了受约束竞价问题的表述，并推导出统一的最优竞价函数。第3节提出了我们的强化学习方法。第4节讨论了实验结果，第5节介绍了相关工作。最后，我们在第6节对本文进行总结。

在本研究中，我们首次为在线展示广告中受约束的竞价问题推导出统一的最优竞价函数，并提出了一种基于强化学习的方法来搜索关键参数调整策略，这一策略具有通用性、工业适用性和有效性。实证评估表明，我们的解决方案在现实世界的工业数据集上表现优越，优于其他方法。除了实验之外，这个解决方案已经在淘宝展示广告系统中部署并得到验证。我们相信，本文提出的方法对于在线展示广告领域的受约束竞价问题具有重要意义，并将为广告商和广告平台带来实际优势。