《Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-Modal Pretraining》中

系列论文研读目录



摘要

 随着电子商务时代顾客需求的多样化,给产品检索行业带来了更多的复杂性。以前的方法要么受到单模态输入或执行有监督图像级产品检索,从而无法适应存在巨大的弱注释的多模态数据的现实生活的情况。在本文中,我们研究了一个更现实的设置,旨在细粒度的产品类别之间进行弱监督的多模态实例级产品检索。为了促进这一具有挑战性的任务的研究,我们贡献了Product1M,一个最大的多模态化妆品数据集为了真实世界的实例级检索。值得注意的是,产品1M包含超过100万个图像捕获对,并且由两种样本类型组成,即,单产品和多产品样品,其中包括各种化妆品品牌。除了多样性之外,Product1M还具有一些吸引人的特性,包括细粒度的类别,复杂的组合和模糊的对应关系,这些都很好地模仿了现实世界的场景。此外,我们提出了一种新的模型命名为跨模态对比产品Transformer的实例级产品检索(Cross-modal contrAstive Product Transformer for instance-level prodUct REtrieval,CAPTURE),善于捕捉多模态输入之间的潜在协同作用,通过一个混合流Transformer,在自我监督的方式下。CAPTURE通过掩码多模态学习和跨模态对比预训练生成有区别的实例特征,并且它优于几个SOTA跨模态基线。大量的消融研究很好地证明了我们的模型的有效性和泛化能力。数据集和代码可在https://github.com/zhanxlin/Product1M上获得。

1.引言

在这里插入图片描述

图1.我们提出的任务是在多模态数据中执行实例级检索。

 在过去的二十年里,电子商务的商品种类高度丰富,网上消费者的需求多样化。一方面,在线商品具有越来越多样化的类别,并且其中很大一部分被展示为产品组合,其中不同产品的多个实例存在于一个图像中。另一方面,在线客户或商家可能希望检索组合中的单个产品以进行价格比较[42]或在线商品推荐[34]。此外,随着多媒体生成的异构数据的不断加速积累,算法如何处理大规模且弱注释的数据[45]来执行多模式检索仍然是一个问题。
 在本文中,我们探讨了一个现实的问题:如何在给定的大规模弱标注的多模态数据上执行实例级细粒度的产品检索?我们在图1中比较了不同的检索范式。可以看出,图像级检索往往返回琐碎的结果,因为它不区分不同的实例,而多模态实例级检索更有利于在多模态数据中搜索各种产品。尽管这个问题有普遍性和实用价值,它并没有得到很好的研究,由于缺乏真实世界的数据集和一个明确的问题定义。在产品检索的文献中,模态内检索[32,1,31,30]和跨模态检索[43,12,48,4,44,8]将单模态信息作为输入,例如,图像或一段文本,并在分离的数据点之间执行匹配搜索。不幸的是,在许多情况下这样的检索计划显着限制其使用,多模态信息存在于查询和目标。更重要的是,以前的工作集中在相对简单的情况下。比如,图像级产品检索单一产品的图像[24,13]和检索的实例级性质这两项是未经探索的。

实例级产品检索是指对产品组合图像中存在的所有单个产品进行检索。
图像级产品检索是指识别单个产品图像中的特定产品实例。

在这里插入图片描述

表1.不同数据集之间的比较。“-”表示不适用。Product 1 M的#instances和#obj/img用斜体表示,因为训练集没有实例标签,我们只统计验证集和test集中的实例。Product 1 M是最大的多模态数据集之一,也是第一个专门为真实世界的实例级检索场景定制的数据集。

 为了填补这一空白,推进相关研究,我们收集了一个大规模的数据集Product 1 M,提出了一种多模态实例级检索方法。Product 1 M包含超过100万个图像-字幕对,并由两种类型的样本组成,即:单一产品和多产品样品。每个单一产品样本都属于一个细粒度的类别,类别间的差异很小。多产品样本具有很大的多样性,导致了复杂的组合和模糊的对应关系,很好地模拟了现实世界的场景。据我们所知,Product 1 M是最大的多模态数据集之一,也是第一个专门为真实世界的多模态实例级检索场景定制的数据集.
 除了构造的数据集,我们还提出了一种新的自监督训练框架,从大规模弱注释数据中提取代表性的实例级特征。具体来说,我们首先通过结合一个简单而有效的数据增强方案,从伪标签中训练一个多产品检测器。然后,CAPTURE被提出来通过几个代理任务来捕获图像和文本的潜在协同作用。我们展示了一些流行的跨模态预训练方法[27,25,6,38]可能由于网络架构的设计缺陷或不适当的代理任务而在多实例设置下存在缺陷。相比之下,CAPTURE利用混合流架构,该架构分别对不同模态的数据进行编码,并以统一的方式将其融合,实验表明这对我们提出的任务是有益的。此外,我们引入跨模态对比损失来强制CAPTURE实现图像和文本之间的对齐,从而避免了不适当的代理任务所引起的不匹配问题。
 至关重要的是,CAPTURE在所有主要指标方面都大大超过了SOTA的跨模态基线。我们进一步进行了广泛的消融实验来证明CAPTURE的泛化能力,并探索我们提出的任务的几个关键因素。我们希望所提出的 Product1M、CAPTURE 以及稳健的基线能够推动未来在现实世界检索方面的研究进展。

2.相关工作

模态内和跨模态检索。模态内检索[32,1]在基于关键字的Web文档检索[11],基于内容的图像检索[29]和产品推荐[19,20]中得到了广泛的研究。跨模态检索[43,12,48,4,44,8]作为在具有不同模态的大规模数据中进行有效索引和搜索的有希望的途径而出现,并且广泛用于搜索引擎[2,14],电子商务[18,7],仅举几例。然而,这些方法[30,26,7,47,46]通常受到单一模态输入的影响,这使得它们难以应用于许多现实世界的场景,其中查询和目标中都存在多模态信息。
WSOD:弱监督目标检测。WSOD [39,36,50]通过从更便宜或免费提供的数据中学习,减少了对细粒度标签的过度依赖。PCL [39]迭代地生成建议聚类,以促进实例分类器的学习。从图像标签[36]和非结构化文本描述(如标题[50])生成的伪标签也有利于提高WSOD的性能。然而,WSOD通常依赖于预定义类的固定大小的集合,并且不容易适用于我们提出的任务,其中类标签不可用(我理解为不知道类标签)并且类别可以动态更新。
在这里插入图片描述

图2.Product 1 M的特征和统计:(1a)单个产品的复杂组合;(1b)弱监督和模糊对应;(1c)在现实场景中的困难;(2)Product 1 M的长尾类别分布。该行以降序显示每个类别的样本编号。Product 1 M包含各种各样的类别,并且长尾类分布与实际场景非常一致。

跨模态自我监督学习。现有的视觉语言预训练模型通常使用多层Transformer [41]架构,如BERT [9]来学习多模态数据上的图像-文本语义对齐。单流模型[25,37,6]在统一架构中对组合的多模态特征进行编码,而其他双流模型[27,38]则对不同模态的输入使用不同的编码器。这些方法不是为实例级检索量身定制的,我们展示了它们可能由于网络架构中的设计缺陷和不适当的代理任务而存在缺陷。

3.Product1M上的实例级检索

3.1.任务定义

 产品样本 ( I , C ) (I,C) IC是一个图像-文本对,其中 I I I是产品图像, C C C是标题。给定单个产品样本的图库集合 S = { S i ∣ S i = ( I S i , C S i ) } {\cal S}=\{S_{i}|{\cal S}_{i}=(I_{\cal S}^{i},C_{\cal S}^{i})\} S={SiSi=(ISi,CSi)}和多产品样本的图库集合 P = { P i ∣ P i = ( I P i , C P i ) } {\cal P}=\{\cal P_{i}|{\cal P}_{i}=(I_{\cal P}^{i},C_{\cal P}^{i})\} P={PiPi=(IPi,CPi)},任务是检索和排序出现在查询样本 P i \cal P_i Pi中的单品,即,预测列表 R E T R i = [ i d 1 i , i d 2 i , ⋅ ⋅ ⋅   , i d k i , ⋅ ⋅ ⋅   , ı ˙ d N i ] ∀ P i   ∈   P {RETR}^i =[i d_{1}^{i},i d_{2}^{i},\cdot\cdot\cdot\ ,i d_{k}^{i},\cdot\cdot\cdot\ ,\dot{\imath}d_{N}^{i}]\quad\forall{\cal P}_{i}\ \in\ {\cal P} RETRi=[id1i,id2i, ,idki, ,˙dNi]Pi  P,其中 i d k i id_k^i idki对应于S中的特定单一产品样本。

3.2.数据集统计数据

 我们从电子商务网站收集了49个品牌的大量产品样本。然后根据对应的产品信息将这些图文样本人工分为单产品组和多产品组。Product1M分为train、val、test和gallery集。训练集包含1,132,830个样本,包括单产品和多产品样本,而验证集和测试集中只有多产品样本,分别包含2,673和6,547个样本。图库集有458个类别的40,033个单一产品样本,其中392个出现在验证集和测试集中,其余的作为干扰项,用于验证检索算法的鲁棒性。图库中的样本、验证集和测试集都用类标签进行了注释,以便于评估,即,它们不参与训练过程,并且训练集中的样本不被注释。Product1M的统计数据见表1和图2。Product1M的更多可视化以及与相关数据集的比较可以在补充材料中找到。

在评估阶段,模型会将查询样本的特征与gallery set中的特征进行比较,以找到最相似的样本。

3.3.数据集特征

多产品特性和复杂组合多产品图像在电子商务网站中普遍存在,并作为实例级产品检索的查询图像。如图2(1a)所示,产品可以以丰富的形式和布局组织,并且实例的数量可以很大。单一产品样本的数量过多和差异性大,导致不同产品组合图像的组合复杂。
弱监督和模糊对应:我们考虑使用两种常见模式的数据,即,图像和文本,用于检索。与其他具有干净类标签的数据集不同,商品标题的监督很弱,而且通常没有信息。我们在图2(1b)中显示了不同类型的挑战性样本。一些样本包含缩写,即,几种产品的缩写形式,在它们的标题中。然而,类似于“八件套”的缩写并不包含任何关于产品的具体信息。第二类样本带有不相关的信息,标题中描述的商品可能不会出现在图像中,反之亦然。图像和标题之间的模糊对应关系的广泛分布使得实例级检索更具挑战性。
在这里插入图片描述

图3.我们实例级检索流程的概述。(a)基于由复制粘贴数据增强方案生成的伪标签来预训练RPN。(b)利用CAPTURE通过混合流架构和几个代理任务捕获跨模态的潜在协同作用。( c ) 构建匹配的图像-文本样本的正对以进行跨模态对比学习。最好用彩色观看。

与真实场景的一致性:我们在图2(1c)中展示了一些具有挑战性的样本。它们可能具有复杂的背景,其中包含不相关的对象、无定形水印或覆盖产品信息的显著杂波。有些不同类别的产品,除了包装上的文字略有不同外,外观几乎相同,例如,日霜vs晚霜。如图2(2a,2b)所示,Product1M的长尾分布与现实世界的场景非常一致。

4.方法

 如图3所示,我们的框架由一个基于增强的检测器和一个自监督的多模态Transformer组成。在本节中,我们首先在第4.1节和第4.2节中阐述了RPN的培训过程和CAPTURE的架构设计。然后,我们在第4.3节和第4.4节中描述了两种使CAPTURE的自监督学习成为可能的代理任务。最后,我们将在4.5节中演示实例级检索的推理过程。

4.1.用于多产品检测的训练RPN

 简单地基于图像级特征进行检索会导致检索结果被图像中占主导地位的产品所淹没。因此,在多产品图像中区分不同的产品并提取建议性特征是至关重要的。虽然有许多预训练的检测器可用,但由于数据集之间的分布差异,它们不适合直接应用于多产品检测。因此,我们利用一个简单而有效的数据增强方案来训练一个区域建议网络(RPN)[35],该网络仅基于单一产品图像,如图3(a)所示。我们首先使用GrabCut [28]来获得单个产品图像的前景蒙版。使用Places365 [51]中的真实世界背景图像,将复制粘贴增强[10]应用于这些前景蒙版和背景图像以生成合成图像。通过这种方式,我们能够训练出性能良好的多产品检测器。给定RPN的检测区域,我们利用RoIAlign [15]来获得实例特征,然后将其输入CAPTURE进行进一步的跨模态学习。关于合成图像和RPN训练的更多可视化和细节可以在补充材料中找到。

4.2.CAPTURE结构设计

 在训练RPN之后,我们可以为图像中的不同产品生成高质量的建议。不同于流行的单流或双流Transformer架构,我们提出了CAPTURE,这两个架构结合成一个统一的堆叠三种类型的层语义对齐和联合学习的多模态输入。详情见图3(b)。具体而言,文本/视觉Transformer将文本或图像的嵌入作为输入,并负责模态内特征学习。文本/视觉交叉Transformer旨在通过在多头注意机制中交换键值对来捕获和建模文本和图像之间的模态间关系。之后,文本和图像的特征被连接起来,并作为Co-Transformer的查询、键和值输入,用于多模态特征的联合学习。这三种类型的Transformer分别堆叠L、K和H次。我们在表4中验证了架构设计的有效性。

4.3.CAPTURE通过掩码多模态进行学习

 我们利用几个代理任务来实现CAPTURE的自监督学习。对于模态方面的特征学习,我们采用两个掩码的多模态建模任务,即,掩码语言建模任务(MLM)和掩码区域预测任务(MRP),遵循标准BERT [9]和VisualBERT [25]。具体地说,对于MLM和MRP,大约15%的文本和建议输入被屏蔽,其余的输入用于重建屏蔽的信息。MLM的处理方式与BERT [9]相同。对于MRP,该模型直接回归掩蔽的特征,这是由预训练的RPN提取的特征与MSELoss监督的。对于模态间关系建模,图像-文本匹配任务(ITM)在许多先前的方法中被广泛采用[25,6,27,38]。通常,模型被要求预测文本是否是图像的相应描述,这被公式化为二进制分类任务。为了生成负样本,图像或字幕被随机替换。我们认为,ITM可能是有问题的细粒度的理解,在实例级的图像-文本样本。我们假设退化源于替换后的不匹配的图像和字幕对,这导致检测到的区域和文本之间的不一致。我们在表3中进一步通过实验验证了这一说法。

4.4.跨模态对比损失捕获

 除了模态内特征学习之外,CAPTURE还可以生成多模态输入的连贯表示,并学习它们之间的对应关系。为此,我们求助于模态间对比学习[5,33]来实现图像和文本之间的对齐。对于 N N N个图像-文本样本的小批量,总共有2 N N N个数据点。我们将对应的图像-文本对视为 N N N个正对,而将另外 2 ( N − 1 ) 2(N−1) 2(N1)个不匹配对视为负对。形式上,给定图像-文本对 ( x i , x j ) (x_i,x_j) (xixj)及其编码特征 ( x ~ i ,   x ~ j ) ({\widetilde{x}}_{i},\,{\widetilde{x}}_{j}) (x i,x j),则该正对的跨模态对比损失计算为: L ( x i , x j ) = −   l o g exp ⁡ ( sim ⁡ ( x ˉ i , x ˉ j ) / τ ) ∑ k = 1 2 N 1 [ k ≠ i ] exp ⁡ ( sin ⁡ ( x ~ i , x ~ k ) / τ ) \mathcal{L}(x_{i},x_{j})=-\,\mathrm{log}\frac{\exp\left(\operatorname{sim}\left({\bar{x}}_{i},{\bar{x}}_{j}\right)/\tau\right)}{\sum_{k=1}^{2N}{\mathbb{1}}_{[k\not=i]}\exp\left(\sin\left(\tilde{x}_{i},\tilde{x}_{k}\right)/\tau\right)} L(xi,xj)=logk=12N1[k=i]exp(sin(x~i,x~k)/τ)exp(sim(xˉi,xˉj)/τ),(1)其中 s i n ( u , v )   =   u ⊤ v / ∣ ∣ u ∣ ∣ ∣ ∣ v ∣ ∣ \mathrm{sin}(u,v)~=~u^{\top}v/||u|| ||v|| sin(u,v) = uv/∣∣u∣∣∣∣v∣∣计算 ( u , v ) (u,v) uv对的余弦相似度, τ τ τ表示温度参数, 1 [ k ≠ i ] 1_{[k\not=i]} 1[k=i]是一个二进制指示函数,当 k ≠ i k\not= i k=i时返回1。这种形式的对比缺失促使来自不同模态的正性对的编码特征相似,而区分负性对的编码特征。我们发现在文本/视觉Transformer中注入这种监督是有益的,关于跨模态对比度损失的影响的进一步讨论可以在第5.3节中找到。

4.5.实例级检索的推理

 对于单产品和多产品样本,通过预训练的RPN和标题提取的建议特征被用作CAPTURE的输入。在推理过程中,Co-Transformer层分别输出 H I M G H_{IMG} HIMG H T X T H_{TXT} HTXT作为视觉和语言输入的整体表示。将这两个向量相乘以导出实例的联合表示。此外,由于文本/视觉Transformer是监督跨模态对比损失,我们发现它有利于连接这一层的检索功能。然后将得到的特征作为我们检索算法的输入。在计算实例与图库集中的样本之间的余弦相似性矩阵之后,我们检索每个查询的具有最高相似性的对应的单一产品样本。

5.实验

5.1.实现细节

 我们将RPN附加到在ImageNet上预训练的ResNet-50 [16]主干上,并遵循[35]中的训练计划。我们使用BERT [9]来初始化CAPTURE的语言Transformer。文本/视觉Transformer、文本/视觉交叉Transformer和协同Transformer的数量分别设置为 L = 4 、 K = 4 和 H = 4 L = 4、K = 4和H = 4 L=4K=4H=4,这总计为12个Transformer层。我们将CAPTURE和其他基线的隐藏状态大小设置为768,以进行公平的比较。我们在Co-Transformer和Text/Visual Transformer之后分别附加了一个512-d全连接层,用于掩蔽多模态学习和跨模态对比学习。来自这两个层的特征的连接导致用于检索的1024-d特征向量,这对于其他基线也是相同的。句子的最大序列长度设置为36。我们在4个RTX 2080 GPU上训练CAPTURE,总批量为128,共10个epoch。我们使用Adam [21]优化器,初始学习率为 1 e − 4 1e-4 1e4,并采用线性学习率衰减时间表。温度参数τ设定为0.07。在推理时,CAPTURE将文本和命题特征作为输入来生成实例特征。为了与其他基线进行公平比较,除非另有说明,否则我们在所有实验中采用相同的训练程序和评估方案,并且我们对表2中的基线使用相同的基于增强的RPN。更多细节可以在补充材料中找到。
在这里插入图片描述

表2.与不同模态内和跨模态自我监督基线的比较。

评估指标。我们采用精确度(Prec@N)、平均精确度(mAP@N)和平均召回率(mAR@N)作为我们的评价指标,其中Prec@N和mAP@N在检索文献中被广泛使用[49,3]。由于在许多情况下,穷举检索每个产品是不必要和不切实际的,因此我们报告了N = 10、50、100时的mAP、mAR和Prec。评价指标的详细信息可参见补充材料。

5.2.弱监督实例级检索

 我们将CAPTURE与几个模态内和跨模态基线进行比较,结果如表2所示。
模态内方案。我们将我们的方法与基于图像和基于文本的两种模态内方法进行了比较。对于基于图像的检索,我们将4.2节中描述的Visual Transformer层进行堆叠,并采用相同的图像输入和借口任务,即,掩蔽区域预测为CAPTURE。对于基于文本的检索,我们将Text Transformer层堆叠起来,只使用文本输入和屏蔽语言建模借口任务。我们进一步将这两个模型的深度加倍到24层,以保持与CAPTURE相同的参数数量。结果表明,这两种方法都是针对单模态数据的,都存在着较大的滞后性,这说明对多模态数据之间关系的建模是必不可少的。我们在5.4节中提供了更多的实验结果来验证这一点。
跨模态方案。我们将CAPTURE与表2中的几种主流的自监督跨模态预训练方法进行了比较,包括SOTA单流和双流视觉语言模型以及SOTA零镜头分类模型,即:夹子[33]。CLIP* 基准是指一种类似CLIP的架构,它使用单独的转换器对图像和文本进行编码,并使用对比目标进行训练。值得注意的是,CAPTURE在实例级检索的所有三个指标上都优于所有这些基线。双流模型,即:ViLBERT [27]、LXMERT [38]和CLIP*,一般比单流的差,这表明多模态特征的融合模式是关键因素之一。我们将CAPTURE的上级性能归因于其混合流架构,并在5.4节中研究了不同层类型的影响。
在这里插入图片描述

表3.不同托词任务对跨模态对比缺失的影响。评价为N = 100。'Masked’代表两个被掩盖的多模态借口任务,即:MLM和MRP。“CTR”代表跨模态对比损失。

5.3.代理任务的影响与对比损失

 如表3所示,ITM将损害实例级检索的准确性(#1与#3),因为它会导致不匹配的样本,这可能不利于对多产品图像的细粒度理解。我们在文本/视觉Transformer层应用跨模态对比度损失来对齐图像和文本的表示,这进一步有利于后续层的学习。包含对比损失鼓励我们的模型最大化正对的特征相似性,这将所有三个指标分别提高了1.2,0.2和0.5(#1 vs #4),并且我们发现当添加到更深层时几乎没有帮助。此外,在将来自文本/视觉Transformer的特征与来自用于检索的CoTransformer的特征连接之后,它进一步将所有三个度量分别提高了1.3、1.0和0.7(#4对#5)。然而,我们发现这种级联操作在不进行对比学习的时候会稍微降低模型的性能(#1 vs #2),这表明这种改进主要来自对比学习,而不是操作本身。
在这里插入图片描述

表4.不同层配置的性能。评价为N = 100。

5.4.分层的影响

 我们在表4中研究了Transformer层的配置如何影响我们模型的性能。“配置”列中的三元组分别代表文本/可视Transformer、交叉Transformer和协同Transformer层的编号。我们首先移除特定类型的层,同时保持所得网络的深度与CAPTURE的深度相同,即,12层,为了公平的比较。“w/o-Cross”、“w/o-Co”和“w/o-Txt/维斯”是指从CAPTURE中删除Cross-Transformer、Co-Transformer和Text/Visual Transformer层后生成的模型。可以看出,这三个模型的性能都不如CAPTURE,这证明了其混合流架构的有效性。此外,在表4的第二组(CAPTURE-A、B、C)中,我们研究了三种层类型以不同比例的组合。结果表明,(4,4,4)配置实现了最佳性能。我们进一步探讨了一个较小的模型(CAPTURE-S)和一个较大的模型(CAPTURE-L)的性能。可以看出,具有(4,4,4)配置的CAPTURE实现了准确度和参数之间的更好折衷。

5.5.zero-shot实例级检索

 我们认为,基于检索的解决方案更好地推广到现实世界中的情况下,类别集不断更新,大量的干净的标签是太昂贵的collect. Different检测,我们的基于检索的框架不依赖于一个固定大小的集合预定义的类或细粒度的框注释。为了强调这一点,我们进行了zero-shot检索实验,并在表5中报告了结果。我们从训练集中手动删除5/10/20个品牌,并在剩余的样本上训练CAPTURE,以便在训练期间不会将删除的类别处理到我们的模型中。然后,我们评估CAPTURE对这些看不见的品牌的类。我们进一步比较我们的模型与双流模型LXMERT和单流模型UNITER。可以看出,CAPTURE在所有三个指标上都比LXMERT和UNITER实现了更好的性能,这很好地证明了其泛化能力。我们还在图5中可视化了CAPTURE和UNITER通过t-SNE [40]生成的嵌入。事实证明,CAPTURE编码的特征更具区分性,从而有利于检索任务。
在这里插入图片描述

图5.CAPTURE生成的检索结果的可视化。左侧为多产品查询图像。正确/不正确的检索图像以绿色/红色框突出显示。

在这里插入图片描述

表5.zero-shot 检索的性能比较按照LXMERT/UNITER/CAPTURE的顺序组织。

在这里插入图片描述

表6.单个产品检索的消融研究以及检测性能对回收的影响。请注意,对于单一产品检索,度量Prec@N等效于mAR@N,因为在图像中只有一个类别。

5.6.单件商品检索的比较

 值得注意的是,CAPTURE既适用于单产品检索,也适用于多产品检索。事实上,它在这两个任务上都表现出色,并且在单个产品检索方面比其他基线获得了更好的性能。具体地说,对于图库集中的每个单一产品样本,我们将其挑选出来作为查询,并在图库集中的其余样本中执行单一产品检索。我们比较了三种模型的性能,UNITER-single、LXMERT-single和CAPTURE-single,如表6所示。可以看出,单产品检索的性能比多产品检索的性能高得多,因为当图像/文本中只有一个实例/实体时,难度大大降低。此外,我们还注意到CAPTURE-single的性能仍然优于其他两个基线,进一步证明了CAPTURE的优越性。
在这里插入图片描述

图4.通过t-SNE可视化CAPTURE和UNITER生成的嵌入。属于同一类别的点具有相同的颜色。最好用彩色观看。

5.7.检测性能对检索的影响

 我们进行了几个实验,以探讨如何检测器的性能将影响实例级检索。结果列于表6中。正如我们在第4.1节中所声称的,由于自然图像和商品图像之间的分布差异,现成的预训练检测器并不容易适用于我们的数据集。为了验证这一点,我们用在Visual Genome [23]上预训练的Faster R-CNN [35]替换RPN,并利用它来生成CAPTURE的实例输入特征。由此产生的模型名为“CAPTURE-natural”,在所有三个指标上都不如CAPTURE。对于“CAPTURE-1 Inst”模型,我们将整个图像和与图像大小相同的图像级边界框提供给CAPTURE进行推理。由于实例识别失败,该方案的性能不令人满意,这表明检测器可能成为性能瓶颈。更进一步,为了探索CAPTURE的上限,我们随机选择了1,338张多产品图像,并手动标记这些图像的边界框。对于“CAPTURE-subset”模型,我们简单地在这个带注释的子集上评估CAPTURE。对于“CAPTURE-gt”模型,地面实况框及其对应的特征作为CAPTURE的输入。可以看出,这两个模型的性能差距表明,检测器的性能可以在实例级检索中发挥重要作用。此外,它们之间的mAR差距相对较大,这表明检测中的假阴性会损害实例级检索的性能。

6.结论

 在这篇文章中,我们首次提出了将规范的模态内/跨模态检索扩展到一个更一般化的环境,即,弱监督的多模态实例级产品检索,在电子商务领域具有极大的潜力.我们贡献了Product 1 M,它是最大的多模态检索数据集之一,也是第一个专门为实例级检索而定制的数据集。除此之外,我们提出一种新颖的混合串流Transformer,称为CAPTURE,其擅长捕捉不同模态数据之间的潜在协同作用。此外,我们亦借由强化多模态特征间的跨模态对比学习,克服因不适当的借口任务所造成的不匹配问题。大量的实验表明,CAPTURE在所有指标上都大大优于SOTA跨模态预训练模型.我们希望所提出的Product 1 M、CAPTURE和固体基线将促进对更可靠和更灵活的检索系统的进一步研究。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值