展示广告预估技术最新突破：基于原生图文信息的多模态预估模型

阿里妈妈技术

于 2024-08-02 18:00:41 发布

阅读量3.1k

点赞数 10

文章标签：人工智能

本文链接：https://blog.csdn.net/alimama_Tech/article/details/140926797

版权

一、摘要

目前，搜索推荐及广告领域的预估模型主要基于大规模稀疏ID特征结合MLP构建。然而，ID特征难以刻画item的内容语义信息，因此业界一直在探索如何引入原生多模态内容信息以提升模型性能。为此，需要思考几个关键问题：

多模态信息在预估模型中带来效果提升的关键，以及如何设计预训练任务以获取多模态表征；
在基于ID体系的预估模型中如何释放多模态表征的效果。

本文将介绍阿里妈妈展示广告团队在预估模型与多模态结合方向上的最新突破。我们发现，多模态信息能否大幅提升效果的关键在于，其能否通过精准建模“目标商品”和“用户历史行为商品”之间的语义相似度，从而实现相较于ID特征更优的行为序列建模。为此，我们首先设计了语义感知的对比学习预训练SCL方法，让多模态编码器能够从多模态原始信息中抽取出其蕴含的电商业务语义信息。随后，我们提出了SimTier和MAKE算法，利用多模态表征的语义判别能力进行行为序列建模。通过这些技术创新，我们取得了显著成果——精排CTR模型的GAUC提升超过1个百分点，这是近几年来展示广告离线效果提升最大的迭代，在目前的高技术水位下显得尤为可贵。目前，多模态的应用也在粗排等其他模型中全面上线，均取得显著的线上收益。

基于这一工作的研究论文已被CIKM 2024会议接收，欢迎阅读交流。

论文：Enhancing Taobao Display Advertising with Multimodal Representations: Challenges, Approaches and Insights

作者：Xiang-Rong Sheng*, Feifan Yang*, Litong Gong*, Biao Wang*, Zhangming Chan, Yujing Zhang, Yueyao Cheng, Yong-Nan Zhu, Tiezheng Ge, Han Zhu, Yuning Jiang, Jian Xu, Bo Zheng (*Equal contribution)

链接（点击↓阅读原文↓）：https://arxiv.org/pdf/2407.19467

二、背景

目前，业界的预估模型普遍采用大规模稀疏ID特征结合多层感知机（MLP）作为核心架构。ID特征的优势在于其高复杂度和强大拟合能力，在数据量较大的情况下往往能够取得优异的效果 [1]。然而，ID特征天然难以刻画商品的内容语义信息。因此，业界一直在探索将多模态信息引入预估模型的解决方案 [2] - 这些方案通常采取两阶段的建模框架，第一阶段进行多模态表征的预训练，第二阶段将这些表征引入预估模型。尽管过去的研究在一定程度上提高了模型在长尾样本上的预估准度，但尚缺乏能够大幅提升整体预测效果的方案。

在本文中，我们希望探明预估模型与多模态的有效结合方式，为模型迭代提供ID体系之外的第二增长曲线。为此，我们需要回顾当前业界预估模型中哪些模块起到了最重要的作用，并思考如何利用多模态数据来改进这些模块。

预估模型的核心模块：行为序列建模模块。在预估模型中，一个（最为）重要的模块是行为序列建模模块，其核心在于通过建模“目标商品”和“用户历史行为商品”之间的相关性，以实现精准个性化推荐（图1以DIN为例进行了介绍）；
ID特征做行为序列建模的局限：难以建模商品之间的语义相似度。由于ID特征稀疏性和无泛化性的特点，其难以有效建模商品之间语义相似度，例如商品pairwise的视觉相似度和文本语义相似度。

图1. DIN利用ID特征端到端建模“Target商品”和“用户历史行为商品”之间基于ID协同过滤信息的pairwise相似度（用作attention score），但由于ID的稀疏性和无泛化性特点，其难以建模商品之间的视觉及文本语义相似度。

针对ID特征的不足，我们思考是否可以利用多模态信息来实现更好的行为序列建模。直观上，多模态信息可以更好地建模“目标商品”和“用户历史行为商品”之间的视觉和文本语义相似度。例如，商品的图片可以帮助模型判定目标商品与历史行为商品之间的视觉相似度，从而辅助预测。明确了多模态信息的利用方式后，我们设计了基于原生图文信息的多模态预估模型建模框架（如图2所示），核心解决了以下两个问题：

如何设计预训练任务，使多模态表征具备度量商品之间语义相似度的能力；
如何有效应用多模态表征的语义相似度度量能力提升序列建模能力。

图2. 基于原生图文信息的多模态预估模型建模框架。

针对多模态表征预训练，我们提出了语义感知的对比学习方法SCL（Semantic-aware Contrastive Learning）。SCL的设计motivation来源于我们的实验发现 - 我们发现多模态预训练（表征质量）的关键不在于选择哪个基座模型，而在于如何构造预训练数据，更具体地，如何定义语义相似/不相似的商品对，来使得表征可以刻画电商场景下不同商品之前的语义相似度。

更具体地，我们发现电商场景下用户的搜索-购买行为链可以很好地定义多模态之间的语义相似性。以图像为例，如果用户搜索了一张枕头的图片，随后购买了一个枕头，这一连串的动作表明查询的图片和购买商品的图片在语义上足够相似，从而满足了用户的购买意图。因此我们使用用户的搜索-购买行为链定义语义相似pair，

最低0.47元/天解锁文章