《Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerce》中文校对优版

醒了就刷牙

于 2024-10-04 13:07:51 发布

阅读量381

点赞数 5

分类专栏：论文文章标签：人工智能计算机视觉算法深度学习

本文链接：https://blog.csdn.net/buyaotutou/article/details/142702217

版权

论文专栏收录该内容

55 篇文章 0 订阅

订阅专栏

系列论文研读目录

摘要

本文旨在建立一个通用的多模态基础模型，该模型具有可扩展性，能够满足电子商务中大量下游应用的需求。近年来，大规模的视觉语言预训练方法在一般领域取得了显著的进展。然而，由于自然图像和产品图像之间的显著差异，直接将这些用于建模图像级表示的框架应用于电子商务将不可避免地是次优的。为此，本文给出了一种以实例为中心的多模态预训练范式ECLIP。详细地说，我们制作了一个解码器架构，该架构引入了一组可学习的实例查询来显式地聚合实例级语义。此外，为了使模型能够集中于期望的产品实例而不依赖于昂贵的人工标注，还提出了两个特殊配置的托词任务.ECLIP通过对1亿个电子商务相关数据进行预训练，成功地提取出了更通用、语义丰富和更健壮的表示。大量实验结果表明，在不进行进一步微调的情况下，ECLIP在广泛的下游任务上都远远优于现有方法，具有很强的可移植性.

1.引言

如今，电子商务的蓬勃发展为人们的日常生活带来了极大的便利.与开发单个特定任务模型相比，构建一个同时适用于大规模电子商务应用的通用基础模型，可以提高适用性，降低培训成本。
视觉语言预训练（VLP）[9，13，18，21，32，36]的最新发展已经证明了各种VL下游任务的显着进步。得益于大规模的图像-文本对，这些方法能够学习在各种任务中重用的通用多模态表示。在电子商务场景中，相关数据自然包含跨模态信息来描述相应的产品。受VL建模取得的巨大成功的激励，几种方法[4，34，37，39]已经尝试设计一种特定于语言的多模态表征学习范式。它们模仿现有的VLP方法（例如，CLIP [21]，VilBERT [18]）通过对丰富的商业图像-文本对进行预训练来学习产品的图像级表示。
虽然已经取得了可喜的成果，直接应用这些VLP方法在一般领域的电子商务仍然存在着固有的不足。自然图像和产品图像的属性似乎有很大的不同。给定一个自然图像-文本对，自然图像中的几乎每个像素都被相应的文本描述所提及。相反，如图1所示，在真实的电子商务场景中，图像大多是面向产品的。只有极少数情况与产品描述有关。简单地将整个图像作为一个整体实体来执行与文本的跨模态对齐将不可避免地混淆前景和嘈杂的背景。因此，为了建立一个能很好地推广到各种电子商务应用的基础模型，学习与产品相关的实例级表示具有重要意义。考虑到这一目标，需要解决一个关键的挑战：我们如何使模型在存在背景干扰的情况下专注于产品实例？
在这里插入图片描述

自然图像和产品图像之间的域差异。对于自然图像，大多数像素在语义上与文本句子相关是常见的情况。然而，在电子商务中，这种相关性要稀疏得多（例如，“煎锅”或“咖啡机”仅占据整个图像的一小部分）。此外，通常从多个源（例如（a）广告视频、（B）产品页面、（c）客户评论（参见底部示例））以组的形式提供产品的图像。

解决这个问题的一个直接方法是求助于对象级的人工注释，但是从互联网上扩展更大的数据是费力且不可行的。在这项工作中，我们致力于从未经策划的数据中推导出基础产品实例的能力。我们的动机是建立在电子商务数据本身的自然特性之上的。如图1所示，产品通常具有来自不同来源的多个图像样本（例如，商家、顾客评论、附加广告视频等）。虽然这些样品的外观可能会因为相机视图或场景的变更而有所不同，但它们都包含相同的产品实体。这一事实强烈地激励我们通过利用这种显式相关性来追求以实例为中心的多模态学习范式。
建议的预训练框架，被称为ECLIP（E为“电子商务”），采用两个独立的编码器来嵌入产品的图像和文本。我们的主要思想是开发一个解码器架构，建立在上述编码器，其目的是聚合的以示例为中心的产品表示，而无需额外的手工制作的注释。受[1，16，31]的启发，解码器引入了一组可学习的令牌，我们称之为实例查询。在每个解码器块，这些实例查询通过与编码的视觉特征交互来更新。通过多个块的堆栈，他们将逐渐从整个图像中探测潜在的产品实例。此外，每个实例查询都以称为多模态提示的具体文本或图像为条件。这种设计使其专用于由其关联提示符的内容指示的特定实例类型。因此，通过指定多模态提示的内容，解码器可以自适应地发现对应的实例。在预训练期间，对于给定的样本只有一个正提示。其余的是从其他产品中取样的阴性样品。
为了有效地优化所生成的实例表示，我们新设计了两个借口任务：产品间和产品内多模态学习。第一个负责将相同产品的表示拉得更近，并将不匹配的表示推开。值得注意的是，除了所展示的产品外，正像样品的外观变化很大。在特征空间中使它们的表示比负对更接近将隐含地鼓励实例查询集中在对应于所需产品的视觉区域上。第二个目标是确保只有肯定查询才能聚合前台实例的语义，而不是否定查询。将这两个新颖的托词任务耦合在一起，我们发现整个框架能够学习一个通用的产品表示。我们的核心贡献可概括如下：(1) 我们提出了ECLIP，一个有效的和简单的多模态表示学习范式在电子商务的情况下。超越常规的全局表示，它可以成功地获得实例为中心的产品表示通过解码器架构。(2) 通过充分利用电子商务数据的自然特征和拟议的借口任务，ECLIP获得了细粒度对齐能力，以支持所需的产品实例（参见图4a），而无需依赖任何手动注释。(3) 在大规模产品数据上进行预训练，所产生的基础模型可以无缝地推广到下游电子商务应用程序。全面的实验结果进一步证明了ECLIP的优越性：在没有任何微调的情况下，它在各种现实世界的电子商务任务上实现了对现有最先进方法的实质性改进。
在这里插入图片描述

视觉基础和物体检测的定性示例。更多解释见正文。

2.相关工作

视觉语言表征学习。近年来，视觉语言预训练（VLP）吸引了众多研究人员的注意，并得到了广泛的探索[6]，其目的是从大量的图像文本配对数据中学习，以获得可以推广到下游任务的知识。一些先驱作品（例如LXMERT [24]，UNITER [2]，VinVL [38]）依赖于Faster-RCNN [23]等预训练的对象检测模块来提取视觉表示。后来的努力，如ViLT [11]和VLMo [27]统一了视觉和语言转换器，并从头开始训练多模式Transformer。然后，CLIP [21]和ALIGN [9]证明了在嘈杂的图像-文本对上使用对比目标预训练的双编码器模型可以学习强图像和文本表示，用于跨模态对齐任务和zeroshot图像分类。而ALBEF [13]还训练了一个融合编码器来共同学习多模态表示。GLIP [14]统一了对象检测和预训练的短语基础，并超越了检测领域的许多基线。另一系列研究[20，26，28，33]开发了编码器-解码器模型，这些模型使用生成损失进行训练，并在视觉语言基准测试中显示出强大的生成性能，而视觉编码器仍然在图像分类上具有竞争力。但是前面提到的大多数VLP方法都致力于文本和整个图像之间的粗略关联，而忽略了实例级信息，这在电子商务场景中至关重要（如图1所示）。
电子商务的多模式预培训。FashionBERT [7]、Kaleido-BERT [40]等早期作品利用基于transformer的模型和定制的掩蔽策略来执行预训练，以生成用于布料检索的更细粒度的特征。然后CAPTURE [37]通过掩码多模态学习以及跨模态对比预训练生成区分性实例特征，在实例级产品检索任务中实现了令人惊讶的性能。K3 M [39]进一步在多模态预训练中引入知识模态，以纠正噪声并补充图像和文本模态的缺失。SCALE [4]提出了一个自我协调的对比学习框架，可以将六种不同的模式整合到一个统一的模型中。最近CommerceMM在[34]中设计了一个基于对比和MLM的预训练范式，用于14个不同的任务。然而，所有现有的方法都只考虑图像和文本之间的全局对齐，而没有探索电子商务数据中包含的特殊特征来学习以实例为中心的表示。

3.方法

在本节中，我们开始概述我们在3.1节中提出的ECLIP。然后，在3.2节中介绍了旨在聚合所需产品的实例级表示的核心解码器架构。为了优化整个框架，我们在3.3节中仔细设计了几个预训练目标。最后，我们描述了如何将生成的基础模型转移到3.4节中的各种下游任务。

3.1.模型概述

如图2所示，ECLIP由图像编码器、文本编码器和实例解码器组成。给定输入样本 $x =（x^I，x^T)$ ，其中 $x^I$ 和 $x^T$ 分别是描述相应产品信息的图像和文本。这两个编码器首先将图像-文本对编码为特征嵌入序列。然后，一个模态相关的投影层被用来线性映射到一个联合多模态特征空间。这些投影嵌入被进一步解码以产生以实例为中心的表示。两个单峰编码器的细节阐述如下。
在这里插入图片描述

(a)提出的实例级表示学习范例（ECLIP）的体系结构，它由一个图像编码器，一个文本编码器，和一个实例解码器。在大规模电
子商务数据集上进行预训练时，通过三个预训练任务对整个框架进行了优化。(b)核心解码器架构，旨在聚合所需产品的实例表示。

图像编码器。根据视觉变换[5]，将产品图像 ${\boldsymbol{x}}^{I}\,\in\,{\boldsymbol{R}}^{H\times{W}\times{\boldsymbol{C}}}$ 划分为N个不重叠的块。这些面片被展平为 $1 D$ 输入令牌，然后线性投影，添加位置嵌入。通过分层特征编码，我们可以得到视觉嵌入的序列 $\left\{v_{c l s},v_{1},\ldots,v_{N}\right\}$ ，其中 $v_{cls}$ 表示对整个图像信息进行编码的特殊标记 $[C L S]$ 。
文本编码器。该编码器采用模拟transformer式结构。对于输入的产品描述 $x_T$ ，它将文本标记化为 $M$ 个子词，如BERT[3]中所示。与图像编码器类似，一个特殊的 $[C L S]$ 标记被附加到文本输入的开头，以总结文本语义。在编码之后，得到的语言嵌入序列被表示为 $\left\{w_{c l s},w_{1},\ldots,w_{M}\right\}$ 。

3.2.提取以实例为中心的表示法

现有的VLP方法在获得上下文嵌入后，利用 $g_I（v_{cls}）∈ R^D$ 和 $g_T（w_{cls}）∈ R^D$ 通过对比学习来对齐正的图像-文本对。这里， $g_I（·）$ 和 $g_T（·）$ 是前面提到的投影。虽然在一般领域中有效，但是该设计仅考虑全局图像文本语义之间的对齐。然而，在电子商务图像中，只有包含所需产品实例的几个区域是对应于文本描述的信息性前景。对这种图像级对齐建模将无法学习强有力的产品语义。因此，我们致力于学习以实例为中心的表示法。

实例查询。执行严修查询在[1，16]的启发下，引入了一组可学习的标记，称为实例查询，以在产品图像中建立潜在的实例。如图2所示，每个查询都与一个特定的文本或图像相关联，我们称之为多模态提示。这种设计背后的深刻之处在于，我们希望查询应探查的实例由提示内容指定。形式上，所提出的实例查询被表示为 ${\cal Q}\,=\,\{q_{t}\,\in\,{\cal R}^{D}\}_{t=1}^{T}$ ，其可以通过下式获得： $q_t = q_t^{prompt} + q_t^{pos} + q_t^{type} \qquad (1)$ (这里， $q_t^{prompt}$ 表示 $g_I(v_{cls})$ 或 $g_T(w_{cls})$ ， $q_t^{pos}$ 和 $q_t^{type}$ 是可学习的位置和类型嵌入，指示查询的探测区域和绑定提示的模态类型。这些查询负责经由解码器体系结构从编码的视觉特征聚集实例中心表示 $H=\{h_{t}\}_{t=1}^{T}$ 。在预训练期间，对于给定的样本，只有一个正提示（w. r. t是相同的产品），其余的 $T - 1$ 是从其他产品中采样的负提示。
实例解码器。“我们首先将所有编码的 ${v_i} ^N_{i =1}$ 投影到与提示相同的特征空间中，产生嵌入序列 $Z\;=\;\{z_{i}\;\in\;\mathcal{R}^{D}\}_{i=1}^{N}$ 。此外，实例表示 $H^0$ 被零初始化，然后在馈送到解码器之前被初始化。然后，所提出的解码器读取所有上述嵌入： $Z 、 Q$ 和 $H^0$ 作为其输入。该算法具有 $L$ 个堆叠块，每个堆叠块由一个时隙注意层和一个自注意层组成。

槽注意层的目标是通过与编码的视觉嵌入的交互来自适应地更新查询表示。详细地说，对于第 $l$ 个slotattention层，它首先计算相似度矩阵 $M ∈ R^{N×T}$ ，这是通过点积注意力机制实现的[25]。形式上，它可以用公式表示为：
$M=\frac{1}{\sqrt{D}}(Z W_{z})\cdot((Q+H^{l-1})W_{q})^{\top} \qquad（2）$ ，其中 $W_z$ 和 $W_q$ 是可学习的投影参数矩阵， $H^{l−1}$ 是由第 $（ l - 1 ）$ 个解码器块产生的实例表示。相似度矩阵 $M$ 进一步通过 $T$ 个查询上的softmax函数进行归一化：
$M_{i j}=\frac{\exp(M_{i j})}{\sum_{t=1}^{T}\exp(M_{i t})}.$

生成的矩阵 $M$ 实际上通过计算 $N$ 个视觉令牌和T个实例查询之间的语义相似度来执行软分配。在这样做时，它能够根据它们的相似性得分将每个视觉令牌分配给特定的查询。为了将视觉标记的信息聚合到它们分配的输入查询中，我们基于 $M$ 计算加权平均更新：
$\Delta h_{t}^{l-1}=\frac{1}{\sum_{i=1}^{N}M_{i}t}\sum_{i=1}^{N}M_{i t}(W_{v}z_{i}).$
在这里插入图片描述
最后，第 $l$ 层的实例表示 $H^1$ 可以通过残差连接来更新： $h_t^{1} = h_t^{1 -1} + W_o \Delta h_t^{1 -1}\qquad (5)$ 。其中 $W_v$ 和 $W_o$ 是线性变换参数。在slot-attention层的顶部，有一个自注意模块，用于执行每个查询之间的信息传播。详细地，给定先前更新的 $H^l$ ，其采用标准多头自注意力（MSA），随后是如[25]中的完全连接的前馈网络。在 $L$ 个连续的解码器块之后，我们可以获得最终的实例表示 $H^L$ 。值得注意的是，由于多模态提示仅参与Eq.2，由此产生的 $H^L$ 只包含视觉模态信息。
论述：所提出的解码器的工作原理类似于对图像标记进行聚类，其中每个实例查询作为聚类的质心。在每个解码器块，它通过测量每个标记与语义空间中的质心的距离来确定每个标记所属的位置。然后基于计算的距离经由软方式（等式4）更新聚类质心。通过堆叠多个解码器块，它可以隐式地强制每个查询关注特定区域并聚合实例级表示。

3.3.多模式预培训目标

我们的ECLIP在大规模未经策划的产品数据上进行了优化，具有几个预训练代理任务。在下文中，我们将详细描述每个任务。
在这里插入图片描述
图文对比学习。与[9，13，21]一样，这个任务有助于学习更好的单峰表示。给定一批产品样本 $\{(x_i^I，x_i^T\}^B_{i=1}$ ，图像 $x^I$ 和文本 $x^T$ 之间的相似度估计为： $s(x^{I},x^{T})=g_{I}(v_{c l s})^{\top}g_{T}(w_{c l s}).$
这个预训练目标使嵌入空间中相同产品的图像-文本对比不匹配的图像-文本对更接近，该图像-文本对由图像-文本项 $\mathcal{L}_{i2t}$ 组成： $\mathcal{L}_{i2t}=-\sum_{i=1}^{B}\log\frac{\exp(s(x_{i}^{I},x_{i}^{T})/\tau)}{\sum_{j=1}^{B}\exp(s(x_{i}^{I},x_{j}^{T})/\tau)},\qquad(6)$
以及文本到图像项 $\mathcal{L}_{t2i}$ ：
$\mathcal{L}_{t2i}=-\sum_{i=1}^{B}\vert\mathrm{og}\frac{\exp(s(x_{i}^{T},x_{i}^{I})/\tau)}{\sum_{j=1}^{B}\exp(s(x_{i}^{T},x_{j}^{I})/\tau)},\quad\quad(7)$
其中τ是可学习的温度参数。然后将整个目标定义为 $\mathcal{L}_{i t c}={\textstyle\frac{1}{2}}(\mathcal{L}_{i2t}+\mathcal{L}_{t2i})$ 。

产品间多模态学习。如图3所示，我们在预训练期间维护了一个动量模型，该模型是原始模型的指数移动平均值，如[8]。对于乘积样本 $x_i$ ，我们将基和动量模型产生的正提示表示为 $h^i_θ$ 和 $h^i_\xi$ 。产品间对比损失 $\mathcal{L}_{inter}$ 计算如下：
$\mathcal{L}_{i n t e r}=-\sum_{i=1}^{B}\log{\frac{\exp(h_{\theta}^{i\,\top}h_{\xi}^{j}/\tau)}{\exp(h_{\theta}^{i\,\top}h_{\xi}^{j}/\tau)+\sum_{k\in \mathcal{N}^{-}}\exp(h_{\theta}^{i\,\top}h_{\xi}^{k}/\tau)}},$

其中样本i和j是正对， $\mathcal{N}^-$ 是属于其他产品的负样本集。该目标最大化相同产品的不同样本之间的相似性，同时最小化不匹配的样本之间的相似性。由于产品的图像是从不同的来源收集的，因此它们的背景外观通常是多样的。因此， $\mathcal{L}_{inter}$ 将鼓励产生的表示与期望的产品高度相关，从而有助于以细粒度的方式将正面提示与对应的图像令牌对齐。
这个借口任务还包含了一个额外的实例-文本匹配损失，它预测实例和文本描述是否匹配。形式上，给定一个实例-文本对，我们得到它们的匹配logit，定义为： $f(h_{\theta}^{i}⊙g_{T}(w_{\mathrm{cls}}^{i}))$ ，其中 $⊙$ 是Hadamard乘积， $f （ \cdot ）$ 是映射层： $R^D → R^2$ 。因此，该匹配logit有助于以细粒度的方式将肯定提示与对应的图像标记对齐。
在这里插入图片描述

图3.产品间对比学习的例证。它的目的是使同一产品的正样本（x和x+）比负样本（x和x-）更接近，这有助于确定所需产品（用绿色框标出）。

产品内多模态学习.对于一个产品样本，在预训练过程中只有一个描述所呈现产品的肯定提示，其余的 $T - 1$ 提示是从其他产品中采样的。这个借口任务背后的动机是确保只有积极的查询可以探测前台实例，而不是消极的查询。为此，我们使用文本监督应用产品内对比损失。假设索引 $r$ 表示肯定查询，则 $\mathcal{L}_{intra}$ 可以公式化为：
$\mathcal{L}_{i n t r a}=-\sum_{i=1}^{B}\log\frac{\exp({h_{r}^{i}}^{\top}g_{T}(w_{\mathrm{cls}}^{i})/\tau)}{\sum_{t=1}^{T}\exp({h_{t}^{i}}^{\top}g_{T}(w_{\mathrm{cls}}^{i})/\tau)}, \qquad(9)$
这使得肯定查询和产品描述比所有 $T - 1$ 否定查询更接近。此外，我们还为 $M$ 引入熵正则化项：
$\mathcal{L}_{R}=\sum_{i=1}^{N}M_{i,r}\log(\frac{1}{M_{i,r}})+\sum_{j=1,j\neq r}^{T}\left(\log N-\sum_{i=1}^{N}M_{i,j}\log(\frac{1}{M_{i,j}})\right).\qquad(10)$
这个正则化项鼓励肯定查询关注可能包含产品实例的几个标记。而对于 $T - 1$ 个消极的，它防止了 $N$ 个图像标记上过于尖锐的相似性分布。最后，ECLIP的总体预训练目标是所有上述损失项的总和。

3.4.转移到下游任务

在这里插入图片描述
一旦经过预训练，就可以利用生成的基础模型以最小的操作提取产品实例表示。具体来说，给定一个产品样本 $（x^I_i，x^T_i$ ），我们首先通过单峰编码器将图像-文本对编码为嵌入序列。然后，文本描述的全局表示 $g_T(w_{cls})$ 被视为肯定查询，并与 $T - 1 个$ 否定查询连接起来送入解码器。这里，为了方便起见，从标准高斯分布中采样否定查询 $\{q_t\}^T_{t=2}$ 。我们还在4.3节中探讨了不同的否定查询设置方式。然后将属于肯定查询的所产生的表示 $h^L_0$ 应用于广泛的电子商务下游任务。

4.实验

预训练细节

预训练数据集 我们从一个流行的电子商务网站上收集了一个大规模的预训练数据集。它由15 M种不同的产品和超过100 M种不同的图片组成，涵盖了大约9 K个不同的类别，如服装、日用品、仪器仪表等。对于每个产品项目，它都有相应的文字描述和来自产品详情页面、客户评论和附带的广告视频的多个图片。在预训练过程中，通过对来自不同来源的属于同一产品的图像进行采样来构造正数据对。
实作详细数据。图像编码器采用与标准ViT [5]相同的网络配置，并根据ImageNet上预先训练的权重进行初始化。我们的文本编码器是用与BERTbase [3]相同的体系结构实现的。该解码器具有6个相同的块和20个实例查询。我们在此探讨了ViT的两种变体：ViTB/16和ViT-L/16。基础版和大型版共有2.2亿/4.5亿个参数。在预训练过程中，输入图像的大小被调整为224 × 224，并进行随机裁剪和水平翻转增强，文本由WordPiece标记，最大长度为55。我们在32个NVIDIA A100 GPU上预训练了15个epoch，批量为6400（ViT-B）/ 4096（ViT-L）。使用AdamW [17]优化器学习整个框架，并且将学习速率预热至1 e-4，然后线性衰减。有关详情，请参阅补充资料。
已比较的基准。我们主要将ECLIP与几种最新的VLP方法进行了比较：CLIP [21]、FILIP [32]、DeCLIP [15]、ALBEF [13]和BLIP [12]。为了进行公平的比较，我们还利用ViT-B/16作为图像编码器，BERTbase作为文本编码器，并使用这些基线的官方公开实现，在相同的100 M电子商务数据上对它们进行预训练。

4.2.下游任务评价

接下来，我们依次描述了五个具体的电子商务下游任务的评价绩效。

4.2.1 zero-shot产品分类

我们首先将ECLIP转移到产品物料分类。它是一项识别任务，旨在将产品样本映射到特定类别。我们在一个名为M5Product [4]的大型公开电子商务数据集上评估了性能，该数据集涵盖110万张图片和5，679个不同的产品类别。在这里，我们考虑多模态设置，该设置使用产品图像和相关的文本描述来进行分类。为了证明ECLIP强大的零触发能力，我们将其直接应用于分类评估，而不需要进一步的微调。它是通过测量CLIP [21]之类的类别文本之间的相似性来实现的。表1的左侧部分总结了所有比较方法的Top1分类准确度。如前所述，我们的ECLIP远远超出了所有现有基线（例如，与上一年相比CLIP），展示了实例级表示的优越性。
在这里插入图片描述

4.2.2 zero-shot 图像-文本检索

ECLIP也被转移到测试zero-shot性能的图像到文本和文本到图像检索。为此，我们收集了一个包含20.5万个电子商务产品图文对的大数据集。由于在此任务中只有单峰信息可用，我们简单地使用我们的图像和文本编码器来嵌入图像-文本对，并根据它们的成对相似性来完成检索。我们使用广泛使用的召回@K指标进行评估。详细的比较结果如表1的右部所示。我们可以看到，尽管在相同的数据集上进行训练，但由于文本和产品实例之间的细粒度对齐建模，我们的方法获得了上级性能。

4.2.3 zero-shot 产品检索

此任务的目的是在给定查询（产品的图像-文本对）的情况下找到最相关的目标产品。它在为用户推荐相关产品等真实的电商场景中有着广泛的应用。我们首先评估粗级别的检索。根据[4]，如果在评估期间产品对属于同一类别，则认为该产品对是匹配的。M5 Product性能指标评测的结果报告在表2的左侧。可以看出，利用以实例为中心的表示显著提高了性能。为了进一步证明实例级表示的有效性，我们接着进行了一个更复杂的细粒度级产品检索任务，其中当且仅当一对产品是相同的产品时，才认为它们是匹配的。此任务需要更充分的细粒度理解能力，因为它侧重于特定的产品实例。详细的比较结果如表2的右部所示。可以发现我们的ECLIP在检索性能上实现了实质性的改进（例如，44.3%对比在R@1时为35.6%（BLIP））。
在这里插入图片描述
我们还考虑了[37]中引入的另一种设置，称为实例级检索，其中查询图像包含多个不同类型的产品实例。模型需要从一个大的画廊中找到所有相关的产品。如表3所示，ECLIP仍然比以前的所有方法都具有上级性能。尽管CAPTURE利用了一个经过专门训练的对象检测器来提取实例，但ECLIP仍然以明显的优势超过了它，没有框注释。
在这里插入图片描述

4.2.4 zero-shot 视觉定位

为了证明我们的模型是否具有在预训练后定位所需产品实例的能力，我们进一步评估了基于零拍产品的ECLIP，这需要根据文本描述在图像中定位产品实例。具体来说，输入的图像-文本对首先被馈送到我们的ECLIP，以获得一个评分图S ∈ R^H×W，该评分图测量文本和每个图像位置之间的相似性。然后，我们使用S对由现成的区域建议网络产生的候选区域进行排名。性能通过由450 K产品图像组成的注释基础数据集上IoU阈值{0.5，0.7}处的前1精度进行评估。详细的比较结果列于表4中。正如我们所看到的，与针对全局表示的方法相比，我们的模型已经学习了细粒度的跨模态理解能力，从而获得了可观的性能增益（例如，+14.5% vs.在Acc@0.7上的BLIP）。由于ECLIP在预训练期间支持图像提示，因此我们还进行零拍摄图像条件化接地。结果和分析见补充资料。

4.2.5 转移到对象检测

我们还将ECLIP转移到对象检测中，以进一步验证其细粒度理解能力。在DETR [1]之后，我们利用图像编码器来嵌入视觉特征，并利用具有新添加的预测头的解码器来解码潜在对象。此外，我们收集了一个手动标注的检测数据集，覆盖160K图像。我们将一个20K的子集进行评估，剩下的用于模型微调。补充文件提供了基线和ECLIP的实验细节。从表4和图4b可以看出，它优于现有的VLP方法，证明了ECLIP在学习电子商务中的细粒度语义方面的优越性。
在这里插入图片描述

4.3.消融研究

Pretext任务的效果。为了验证产品间和产品内学习借口任务的有效性，我们设计了不同任务组合的实验。所有消融都是在较小的预训练数据集上进行的，由于训练时间昂贵，该数据集仅包括5M图像。完整结果列于表5中。可以观察到，取消这两个任务中的任何一个都将导致更差的性能。值得注意的是，与产品内任务相比，产品间任务带来了更显着的性能提升。我们推测，因为前者与来自不同产品图像的更多负面样本形成对比。
在这里插入图片描述不同预训练借口任务组合在粗级产品检索任务（ViT-B/16）上的消融。
负查询的影响。由于在转换到分类和检索任务时使用了否定实例查询，因此我们还对设置这些否定实例的不同方法进行了分析。我们尝试了以下情况：1）利用其他产品的描述文本，并使用文本编码器进行编码。2)从标准高斯分布中随机抽取否定查询。3)在预训练期间，采用整个数据集上查询的指数移动平均值。表6总结了产品回收任务的消融研究结果。正如所观察到的，在设置否定查询的不同方式之间几乎没有区别。因此，我们采用随机抽样实现简单。
在这里插入图片描述实例级产品检索任务（ViT-B/16）中不同否定查询设置方式的消融。

4.4.定性分析

在本节中，我们首先定性地展示了ECLIP可以学习细粒度的跨模态对齐，以支持所需的产品。图4a展示了产品图像及其相应文本描述之间的相似性评分图的可视化，其中较深的颜色表示与文本相似性较高的图像位置。我们可以清楚地观察到，我们的模型可以正确地处理文本所描述的期望实例。此外，T-SNE用于可视化不同类型的产品样本的视觉嵌入。如图5所示，与CLIP相比，我们的ECLIP可以提取语义丰富但紧凑的表示，更好地区分属于不同类别的产品。我们的补充资料中提供了更多的可视化示例和分析。
在这里插入图片描述
CLIP和ECLIP学习表示的T-SNE可视化。它们都是在同一个数据集上预训练的。我们首先随机抽取50种产品，然后每种抽取100个样品。属于同一类别的点具有相同的颜色。更多解释见正文。

5.结论

本文提出了一种有效的电子商务大规模多模态预训练方法ECLIP。除了常规的全局表示外，它的目标是通过一个新颖的解码器和精心设计的预训练代理任务来学习实例级表示。实验结果表明，新算法具有上级的泛化能力。
致谢：本工作得到国家重点研发计划（2022ZD0160305）和北京市自然科学基金（Z190001）的资助。