automated creative optimization for e-commerce advertising

最新推荐文章于 2024-09-19 08:58:33 发布

Kun Li

最新推荐文章于 2024-09-19 08:58:33 发布

阅读量363

点赞数

分类专栏：应用算法文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/u012193416/article/details/124325294

版权

应用算法专栏收录该内容

45 篇文章 11 订阅

订阅专栏

该文探讨了在智能广告平台中如何利用变分自编码器（VAE）优化创意合成，解决CTR预测的挑战。文章指出，传统CTR模型如因子分解机（FM）在处理创意元素交互时存在局限，为此提出了一种基于AutoML的搜索方法寻找有效的交互函数，并结合汤普森采样进行高效探索。实验表明，这种方法能有效提升创意的CTR预测性能，尤其是在数据稀疏的情况下。

摘要由CSDN通过智能技术生成

Variational AutoEncoder系列 - 知乎在生成模型（Generative Models）大家族里面，有两个家族特别著名，分别是变分自编码器（Variational Auto Encoder, VAE）和生成对抗网络（Generative Adversarial Networks, GAN）。本文主要是研究VAE，自然先回…https://zhuanlan.zhihu.com/p/57574493 变分自编码器VAE：原来是这么一回事 | 附开源代码 - 知乎作者丨苏剑林单位丨广州火焰信息科技有限公司研究方向丨NLP，神经网络个人主页丨kexue.fm 过去虽然没有细看，但印象里一直觉得变分自编码器（Variational Auto-Encoder，VAE）是个好东西。趁着最近看概率图模型…https://zhuanlan.zhihu.com/p/34998569

1.abstract

现在智能广告平台提供了基于广告商提供的素材来合成创意的功能。由于可以生成大量创意，因此在有限的反馈量下很难准确预测其点击率。因子分解机 (FM) 对特征之间的内积交互进行建模，可用于广告素材的 CTR 预测。然而，创意元素之间的交互可能比内积更复杂，并且由于有限的反馈，FM 估计的点击率可能会有很大的差异。二点，一是合成的所有图，不能都有ctr值，可能存在很多合成图都没有投放，甚至投放了之后曝光点击都很少，二而是fm对于元素之间的建模不够，作者认为元素之间的交互要比特征之间的交互复杂。怎么处理？一是设计了一个automl的框架使用oneshot搜索算法来搜索元素之间的有效交互函数，而是在往外推的时候也不再是单纯看fm的ctr预估值进行推送，而是使用了汤普森采样的方式推，只不过对于汤普森采样中后验分布进行了设计。元素和特征的混合交互呢？有些是节点有些是特征，这两者如何融合呢？AB上，与基线比，提升了7%。

2.Introduction

合图评估包括创意质量评估和高概率点击两方面。本文和传统的ctr预估或者是精排问题的不同在于，智能优选问题的核心和合成图像是密切联系的，它要评估的对象是创意图，要评估创意图本身的点击率。或者说创意优选不转换为ctr预估问题去解决，是因为两点，一是元素之间的交互比特征复杂，二是得到的创意图和ctr预估值关联过于稀疏，从这个维度去想，阿里应该也是没有把人群因素考虑进来的，而是创意图视角去建模这个问题。对应的是一个最优选择问题，首先，元素的组合导致候选创意的数量呈指数级增长。其次，由于广告预算有限，每个产品通常在一天内展示多次。当分配到大量生成的创意时，反馈变得非常稀少。此外，电子商务中的创意随着时间的推移经常变化，因此对过时产品的累积反馈可能不再有用。根据我们的统计，通常一个热门广告位每天有超过400万个新创意。因此，要准确估计每个生成的创意的点击率是极其困难的。

可以应用分解机 (FM) [31] 来预测每个创意的点击率 (CTR)。 FM 基于内积对创意元素之间的交互进行建模，因此具有相似复合元素的创意被相似地表示。因此，FM 可以在一定程度上缓解稀疏问题。但是，创意元素之间的交互可能比内部产品复杂得多。例如，我们凭经验观察到内积对于建模元素之间的交互作用不是最好的。此外，由于极其稀疏的反馈，每个创意的估计点击率可能会有很大差异。具有最大预测 CTR 的贪婪创意广告通常是次优的，因此通过同时利用 CTR 预测和不确定性来有效探索潜在更好的创意至关重要。

变分推理做下游输出非常合理，不同创意图变成了一个分布，而不是固定的ctr预估，创意图其实由于结合不同的人群等因素之后也不可能是一个具体的预估值，他必然存在歧义，他应该是个分布，ts是生成器？输入是创意图，得到标签是ctr，推理时得到是ctr，往外推的是创意图。

2.preliminaries

只研究合成的创意，在展示时，产品向广告平台发送请求，平台立即从候选中选择创意进行展示，有M元素要合成，第i个元素是ni的替代品的集合。

在曝光时为每个产品选择最好的创意图，在有限的曝光下最大化ctr。

2.1 classical method

通常每个候选创意都应交付给广告平台，并收集用户反馈来进行ctr预估。然后选择具有最大预测点击率值的广告素材进行展示，以提高整体点击率。但是多个元素组合在一起，导致创意数量呈指数级增长。例如，给定 4 个模板、10 种字体、10 种颜色和 5 种图片尺寸，可以为其中一张产品图片合成 2,000 个创意。为模型训练收集足够的样本既费时又费钱。因此，在探索和开发之间存在权衡。

bandit在这个场景中的建模是，在T时段内，一个创意被点击一次算一次1，未点击算0，在有限的曝光下，bandit最小化累计遗憾，遗憾用具有最大预期奖励和真实场景。

2.2 solutions overview

bandit有两个关键组成部分：1.对预期reward的设计2.探索方法。针对两部分，设计了有效的算法，以在巨大的创意空间下提高整体点击率方面的表现，包括两部分：

点击率估算：我们专注于不同元素之间的交互以利用众多创意之间的共性，并根据 AutoML 方法搜索交互功能以捕获合适的表示。

高效探索：为了减少稀疏反馈引起的高方差，采用了经典高效的探索方法汤普森采样。复杂交互函数下的后验近似是通过端到端的变分推理来估计的。

3.interaction function search for ctr estimation

3.1 interaction function analysis

e=vx，表示两个向量之间的乘积关系，其中v是嵌入矩阵，x是one-hot编码。

3.2 search space

与sif类似，我们为每个函数开发一个全连接层，fc控制不同操作的输出大小保持一致。

在我们专注于高效搜索交互函数的方法之前，进行了几个离线实验来证明特征字段之间的不同交互函数会产生不同的性能。基线方法涉及分解机和没有交互的逻辑回归。

如表 1 所示，对大约一千个产品的集合及其 30 万个合成创意进行了不同的操作研究。收集了近300万条数据。我们使用常规 CTR 预测和二元交叉熵损失进行优化。所选择的五个操作功能都比FM模型有更好的性能，并有不同程度的改进。结果证明不同元素之间存在更多的近似相互作用函数。

3.3 efficient search strategy

获取不同特征字段之间的最佳交互的一个简单想法是遍历所有的组合，时间复杂度太高，使用automl的方法。

一个领域的特征通常与其他领域的特征相互作用不同，这提示我们运算符对特征嵌入的潜在不同影响。注意到操作权重和嵌入向量的联合优化，我们设计了操作感知嵌入模块，简称为 OAE，它为每个算子分配不同的嵌入。

4.efficient exploration via ts

相同的产品不同的创意图，以产品为视角和以创意图为视角是有区别的，创意图视角是高方差的，即便加上了人群特征，不仅创意图视角是高方差的，最重要的还是创意图视角对人群影响粒度的强弱，人群喜欢什么产品可以持续推它喜欢的产品，人群喜欢什么创意图，持续推什么的创意图，显然是不成立的，创意图的优选理论上仍然是整个推荐系统的一个维度，召回或者排序的一个维度，单独去考虑一个创意图对人群的影响是不成立，还是要考虑在同一产品同一组人群下，创意图产生的创意偏差。

但是在有些场景，就像本文一样，输入的是产品，希望输出更好的展示的创意图，则必然要考虑合图的影响，在我们自己也是站内外DPA的场景才考虑到这个需求，我希望推同一个产品的不同图给你，至于不同图之间是通过合图节点来筛选还是通过特征维度来筛选方式不一样，站内外dpa的场景其实是没有合图节点，是给了张图，你判定好还不好，没有太大的自有度可调。

ts是一种流行的bandit算法。

5.代码

有两个方向，一个是fm/nas,模型采用固定的arch，对fm的四个算子不进行nas和进行nas，另一个是fm/ts，是否采用ts来拟合后验分布，两个方向。nas就是对arch进行监督学习，通过arch_parameters的变换来控制搜索。实际代码中，单纯使用fm，就是一阶段和二阶段加上偏置之和，经过sigmoid的输出，如果是fmts，使用ts的话，就要考虑使用变分推理来估计后验分布，为了得到后验分布，对其中进行筛选的creative_list，即用来做选择的节点进行重参数化，相当于这两个节点的变化引入了噪声，进行kl散度计算时也只计算变换的creative_list维度，但是这个过程中weights是不变化的，weights的变化和更新是在automl时，weights实际上是对到底使用哪个算子进行控制的。