CTR提升17%：Adobe多模态搜索技术深度解析

最新推荐文章于 2024-11-24 09:00:00 发布

程序员笑武

最新推荐文章于 2024-11-24 09:00:00 发布

阅读量541

点赞数 3

文章标签： adobe 自然语言处理语言模型人工智能 fabric 开源

本文链接：https://blog.csdn.net/m0_59164304/article/details/141869941

版权

传统的搜索系统通常依赖于文本和元数据来索引图像，而新兴的多模态嵌入技术，如CLIP，允许直接使用文本和图像嵌入进行搜索。然而，在企业落地中整合用户地域、时间等因素的上下文特征方面存在挑战，以及一些技术选型：

• 使用哪个（些）嵌入模型``• 是否利用嵌入进行匹配（召回）、排名或重新排名``• 是否使用密集型或稀疏型嵌入``• 是否对头部和尾部查询进行相同处理``• 是否在空值和低恢复或所有地方使用嵌入

Adobe（Photoshop的母公司） Express模板搜索示例。左侧：头部查询咖啡Instagram。右侧：尾部查询多彩咖啡促销Instagram。

详细剖析Adobe Express模板搜索中采用的**多模态搜索技术架构，**通过一系列A/B测试来优化嵌入和多模态技术的使用。研究的核心在于如何利用稀疏、密集和上下文特征来增强对长、短查询的搜索能力，从而显著降低空查询率和提高点击率，提高搜索的相关性和用户体验

Adobe Express模板多模态搜索的高级搜索架构

模板数据（Template Data）：

Adobe Express模板是包含丰富视觉层和文本框的复杂对象，可以作为图像显示在搜索结果中。
模板具有由设计师提供的标题和筛选信息，如设计类型、风格、情绪、地区和价格（免费/高级）。
每个模板还包含多模态嵌入、用户意图和图像标签等推断信息。
可用的聚合行为数据包括展示次数、点击次数、编辑次数（用户为个性化模板所做的编辑次数）和导出次数（编辑后模板的导出次数）。

可用于搜索匹配和排名的示例Adobe Express模板数据

图像-文本CLIP嵌入（Image-Text CLIP Embeddings）：

CLIP模型能够将图像和文本嵌入到同一空间，允许使用文本查询进行基于嵌入的图像搜索。
为了满足Express模板搜索的需求，Adobe训练了一个基于CLIP架构的模型，该模型适用于短文本（查询）和长文本（标题），支持五种语言（英语、法语、德语、日语、韩语），并且在高质量的图像数据上表现良好，包括模板、照片和插图。
为了提高在大量资产中使用嵌入时的延迟，Adobe采用了稀疏化方法，允许嵌入像现有索引中的关键词一样使用。

密集和稀疏嵌入表示以及稀疏嵌入的样本评分。密集嵌入显示为2048维。稀疏嵌入具有更多维度（此处为8192维），但大多数维度没有值。

多模态创意知识图谱（Multi-Modal Creative Knowledge Graph）：

除了通过AdobeCLIP学习内容表示外，还发现将内容的意图映射到离散节点可以提高召回率和可解释性，并允许下游推荐任务。
为此，创建了一个“创意”知识图谱（CKG），包含超过100K个节点，专注于Adobe特定的用户意图。
接着，训练了一个多模态变换器（MM-CKG），专门用于将资产映射到这些离散节点，使用监督对比训练。
利用事件、动作、对象、情绪、画布类型、颜色和背景等概念，以获得对资产内容的全面理解。
为了训练模型，创建了受CLIP启发的序列自注意力块，并在CLIP骨干网络上添加了序列自注意力块，通过多头变换器块进行处理。

MM-CKG 使用带有 SupCoLA 损失的监督对比学习进行标签对齐。这使得模型能够将关注资产整体意图的简短标签更接近内容嵌入。

监督对比损失（Supervised Contrastive Loss, SupCoLA）：

设计了一个损失函数，以确保训练过程中的图像和文本与标签嵌入对齐，并能够处理批次中的多个正样本以及每行的多个标签。
该损失函数基于SupCon损失，将图像、文本和标签嵌入作为锚点特征和对比特征传递。

通过在Adobe Express模板搜索中进行的五个多模态实验，每个实验都建立在前一个实验的基础上，研究团队成功地显著降低了空查询和低查询率，同时提高了点击率。

CLIP重新排名的AB测试结果。所有结果都具有统计学意义

CKG符号意图空值和低恢复的AB测试结果。所有结果都具有统计学意义

包括CLIP到AdobeCLIP的平台迁移的AB测试结果。只有空值率的变化具有统计学意义

长提示理解的AB测试结果

当利用MM-CKG进行召回和排名时，相关性结果来自人工标注

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述