《M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining》中文校对版

系列论文研读目录



摘要

 尽管多模态预训练具有从互补数据模态中学习高度区分性特征表示的潜力,但由于缺乏大规模模态多样性数据集,目前的进展正在放缓。通过利用电子商务的自然适用性,其中不同的模态捕获互补的语义信息,我们贡献了一个大规模的多模态预训练数据集M5 Product。该数据集包括5种模态(图像、文本、表格、视频和音频),覆盖6,000多个类别和5,000个属性,比具有类似模态数量的最大公开数据集大500倍。此外,M5 Product包含不完整的模态对和噪声,同时也具有长尾分布,类似于大多数现实问题。我们进一步提出了自协调的自适应学习(SCALE),一种新的预训练框架,通过自适应特征融合机制将不同的模态集成到一个统一的模型中,其中每个模态的重要性直接从模态嵌入中学习,并影响多模态Transformer模型中的模态间对比学习和掩蔽任务。我们评估了当前的多模态预训练最先进的方法,并基准测试了它们在面对M5 Product数据集中的大量模态时从未标记数据中学习的能力。我们对四个下游任务进行了广泛的实验,并证明了我们的SCALE模型的优越性,为数据集规模和多样性的重要性提供了见解。数据集和代码可在https://xiaodongsuper.github.io/M5Product_dataset/
在这里插入图片描述

图1.我们的M5Product数据集包含了大量的形态(图像,文本,表格,视频和音频),描述了电子商务产品的类别,描述,材料,属性和目的,以及各种真实世界的数据样本。

1.引言

 自监督学习一直在推动计算机视觉和自然语言处理等领域的快速发展,以及多模态表征学习的研究。特别是,从理论[18]和实践[16,58]的角度都表明,具有不同模态的大规模数据集可以有效地增强对生成特征的区分,从而提高视觉语言任务的性能。然而,目前的进展受到缺乏这种大规模多样化模态数据集的严重限制,最大的公共多模态数据集只包含文本和图像模态,没有类别信息[41]。
 鉴于网络购物在日常生活中的普遍性,以及其自然出现的多模态信息和多样化的类别,电子商务产品的多模态预培训受到越来越多的关注,并引领了几个下游任务的下一代技术的发展(例如,多模态检索、多模态分类和聚类)。然而,即使在现有的产品数据集中(例如,RPC checkout [48]、Dress Retrieval [9]和Product1M [55]),但类别的数量不足以可靠地验证下游任务的性能。
 更重要的是,目前的研究界大多集中在两个模态(文本和图像)在一般的多模态和电子商务数据集,而忽略了额外的补充信息的重要性,从结构化数据以及视频和音频模态。例如,表格数据可以提供有关属性和特征的详细信息,例如品牌,材料,属性和场景,而音频和视频可以传达不同的观点,尺度,启示,卖点,特征和使用场景,这些都不是单独从图像或文本中显而易见的。对这两种模式的关注部分是由于缺乏具有不同模式的数据集,以及对在这些环境中平衡模式重要性的方法的探索不足。具体而言,两个关键挑战是:1)模态交互:如何使用扩展到大量模态的优雅方法从不同模态之间的单峰,双峰,三峰甚至多模态关系中学习共同表示; 2)模态噪声:如何在训练过程中减少模态噪声(缺失和不完整的模态)的影响。
 为了解决模态多样性不足和规模有限的问题,同时提供具有挑战性的现实场景,我们提出了一个非常大规模的电子商务多模态产品数据集M5Product,这是迄今为止最大和最多样化的多模态产品数据集之一。我们的M5Product数据集包含来自6,232个类别的600多万个多模态样本,并且具有比现有数据集更复杂和多样化的模态。这使得M5Product可以用于更全面地评估多模态预训练模型的实际应用和泛化能力,并可以提高模态融合性能,促进多模态研究的新方向。图1显示了我们数据集的五种形式(图像、标题、视频、音频和规范(表格))。
 为了进一步解决现有方法的模态融合限制以及处理模态噪声,我们提出了一个通用框架,该框架将五模态数据作为输入,如图2所示。该框架由一个简单有效的多模态五流预训练模型组成,名为自协调主动学习(SCALE),并在几个下游任务上进行评估,并与最近几个最先进的视觉语言模型进行比较[7,27,30,38,42,45,56]。SCALE通过实施自协调策略来提高模态对齐的有效性,该策略适应对比学习模块和掩蔽任务中不同模态之间的对齐权重,以自适应地整合互补模态信息。概括而言,我们的贡献如下:

  • 我们提供最大的五模态电子商务数据集M5Product。通过其大规模,多样性,复杂的真实的场景和模态的数量,M5Product为评估多模态预训练模型的泛化性能提供了一个全面的环境。
  • 我们的自我协调对比学习(Self-harmonized Contrastive Learning,SCALE)框架学习自适应模态交互,从而实现更有效的模态融合。我们将SCALE与一组全面的基线方法进行比较,并在M5Product数据集上展示了其上级性能。
  • 有趣的观察:1)在大规模和复杂的场景中,不同模态的互补增益增加。学习模态对齐权重允许我们的SCALE框架有效地协调互补信息,以实现更好的性能。2)对于电子商务领域的多模态预训练模型,数据集规模和多样性对于下游任务相对重要。考虑到大规模和多样化的产品,我们的SCALE框架比其他基线更好地推广到下游任务。

2.相关工作

多模态预训练数据集。大多数多模态预训练数据集是从社交网站收集的(例如,Twitter和Facebook),并且仅限于为指定任务收集的两种模式。这些数据集可以根据其模态组成分为四类,即,音频/文本、视频/文本、图像/文本等。其中,LJ Speech [19]和SQuAD [25]是经典的音频/文本数据集,用于语音合成和音频问答,而大多数视频/文本数据集[2,20,24,32,46,47,51,57]用于视频问答。然而,这些数据集通常只包含有限数量的样本,限制了它们对多模态预训练的适用性。另一方面,图像/文本数据集[1,4,8,17,22,23,29,34,41,43,48,53]往往更大,并已广泛用于预训练多模态模型。其中,拥有超过300万个图像-文本对的CC 3 M [41]是使用最广泛的预训练数据集,最近已扩展到CC 12 M [5],这是目前最大的文本-图像交叉模态数据集。除此之外,用于多模态检索任务的常用图像/文本数据集是MS COCO [29],Flickr 30 K [53],INRIA-Websearch [22]和NUS-WIDE [8]。其他数据集包括CMU-MOSEI [54]和XMedia [36],其中CMUMOSEI主要关注情感分析,XMedia用于跨模态检索。
在这里插入图片描述

表1. 与其他广泛使用的多模态数据集的比较。“-”表示未提及。与现有数据集相比,我们的M5 Product是最大的多模态数据集之一。六种模态分别表示为:图像(I)、文本(T)、视频(V)、音频(A)、表格(Tab)和3D图像(3D)。

 除了上述数据集,还有几个电子商务数据集。Dress Retrieval [9],RPC checkout [48]和Product1M [55]是典型的电子商务多模态数据集。Dress Retrieval数据集包含来自50个服装类别的20,200个样本,RPC checkout提供了30,000个简单背景下的小型零售商品样本,Product1M提供了来自458个化妆品类别的118万个样本。与这三个数据集相比,我们的M5Product不仅在类别和数据规模方面更大,而且包含更多样化的模态集。与其他多模态预训练数据集的详细比较见表1。
电子商务产品的多模式预培训。近年来,针对视觉-文本多通道学习,研究者们提出了多种视觉语言预训练模型。它们可以粗略地分为两类:1)单流模型,其Transformer层共同对视觉和文本输入的级联进行操作,例如VL-bert [42],Image-BERT [37],VideoBERT [44],MMT [12],HERO [26],VisualBERT [27]和UNITER [7]。2)图像和文本输入不连接的双流模型,例如ViLBERT [30],LXMERT [45],CLIP [38]和DALL-E [39]。
 在电子商务中,基于时尚的任务已经在FashionBERT [13],MAAF [11],Kaleido-BERT [59],M6 [28]和CAPTURE [55]中得到了解决。现有的电子商务场景研究都只关注图像和文本模态,没有一种方法可以利用更多的模态。此外,在建模多模态交互时,所有现有方法都默认将相同的贡献分配给不同的模态。更具体地,基于transformer的方法通过级联来组合从不同输入中提取的transformer高级特征,其单模态transformer通过掩蔽任务约束或通过构建不同模态之间的模态间损失来训练。这限制了模型有效地对模态进行优先级排序,并且随着模态数量的增加,往往会限制性能的提高。
 我们提出的基准通过利用M5Product数据集的所有不同模式填补了这一空白,并为电子商务及其他领域的多模式预训练研究提供了强有力的基线。
在这里插入图片描述

表2. 电子产品不同形态的特点。

3.M5Product数据集

数据收集。该数据集是从一个流行的电子商务网站上爬取的.并对每个电子商务产品的首页进行分析,以收集由产品图像、标题、视频和说明书(表格信息)组成的多模态信息。重复的数据被删除,音频信息通过moviepy工具从视频中提取出来,并保存为mp3格式。对于产品规格,我们提取了5,679个产品属性和24,398,673个值,以构建一个由电子商务商家粗标注的表数据库。经过处理后,数据集包含6,313,067个样本。请注意,作为一个真实世界的数据集,与传统的多模态数据集不同,我们的M5Product不是一个完整的配对数据集,并且包含的样本只有一个模态子集以及长尾分布(图3)。我们在表2中总结了我们的数据集中不同模态所传达的产品特征,其中APP、USA、SPEC、SELL、PROD、MATE和CATE分别表示外观、用途、规格、卖点、生产、材料和类别描述。
定量分析 1)多样性:该数据集包括6,000多个类,涵盖了服装、化妆品和仪器仪表等各种海量的电子商务产品。图1说明了模式和类别的多样性,我们在补充材料E节中进一步说明了数据格式和收集过程。最后,在第F节中可以找到对范畴和情态分布的定量分析。请注意,大约5%的产品是单峰样本,例如,仅包含图像、标题或表格属性。2)质量:我们在表1中进一步提供了我们的M5 Product数据集与一些广泛使用的多模态预训练数据集之间的比较。与其他多模态数据集的更广泛比较可参见补充材料的第H节。与现有的多模态数据集相比,M5 Product是第一个包含两种以上模态数据的超大型公共真实世界电子商务产品数据集。
 此外,我们的数据集包含大量的实例,即,来自6,232个粗分类的超过600万个样本。这些丰富的数据将有利于一些下游任务,如自学习,弱监督学习,多模式检索,跨模式生成和细粒度识别。
其他分析。在补充材料中,我们在B部分提供了数据集收集的详细信息,在D部分详细说明了如何将数据集分为训练和测试,在C部分详细说明了如何获得注释。我们还提供了一个较小的拆分,称为子集,用于显示较小数据集的性能差异。最后,我们在补充章节F中提供了对数据集组成(缺失模态、单峰数据分析和数据格式)的进一步见解。
在这里插入图片描述

图2. M5Product性能指标评测的示例。它由一个五模态电子商务数据集组成,这些数据集来自真实世界的在线购物网站,具有更加多样和复杂的背景。提出了一个SCALE模型,用于捕获4个常见的下游任务的最大模态互补信息:1)多模态检索,2)细粒度检索,3)多模态分类,4)多模态聚类。该基准验证了五种广泛使用的模态中模态多样性的有效性。

在这里插入图片描述

图3. 在整个类别中的定型数据分布。

4.我们的方法

 如图2所示,我们的SCALE框架由一个自协调对比学习模块和一个自监督多模态Transformer组成。在本节中,我们首先在4.1节中提供SCALE的架构设计,然后在4.2节中描述支持SCALE自监督学习的五个掩蔽任务。最后,我们在第4.3节中介绍了SCALE的详细学习过程,并详细介绍了如何实现多模态对齐。

4.1.SCALE框架设计

 如图2所示,SCALE是典型的单流Transformer架构。在底部,图像/文本/表格/视频/音频嵌入层和转换器旨在提取模态特征并生成令牌特征。具体地,文本和表格编码器是分别对产品的标题和表格信息进行编码的标准转换器。相反,图像编码器将由自下而上注意力[3]提取的建议作为输入,而从视频中采样的顺序帧被馈送到视频编码器中。对于音频编码器,SCALE从音频中提取MFCC [33]特征。在由单独的模态编码器处理之后,不同模态的令牌特征被连接并馈送到联合共变换器(Joint Co-Transformer,JCT)模块中以捕获不同模态之间的令牌关系。
缺少模态。在训练SCALE时,利用缺失模态的零插补来利用所有可用数据。我们提供了实验证据,证明SCALE受益于补充材料第一节中的不完整样本。

4.2.借助掩蔽多模态任务的SCALE

 与以前的工作类似,我们利用几个借口任务(PRE)来促进联合Co-Transformer模块中SCALE的自监督学习。对于从图像和文本模态中进行模态特征学习,我们在JCT之后分别采用了掩蔽区域预测任务(MRP)和掩蔽语言建模任务(MLM)。利用表,视频和音频模态的特性,我们进一步提出了一个掩码实体建模任务(MEM),掩码帧预测任务(MFP),和掩码音频建模任务(MAM)以下类似的预测掩码令牌的策略。在所有掩蔽任务中,地面实况标签是掩蔽区域的特征。对于所有掩蔽任务,15%的输入被掩蔽,剩余的输入用于重建掩蔽的信息。请注意,与MLM任务中15%的单个单词被屏蔽不同,15%的实体(属性,品牌名称等)在MEM任务中被完全掩盖了这促使我们的模型学习更好的表表示,以恢复屏蔽的输入,如5.3节所示。第i模态的损失函数定义为:
L M i ( θ ) = − E t m s k ∼ t   l o g   P θ ( t m s k ∣ t ¬ m s k , M ¬ i ) , ( 1 ) \mathcal{L}_{M_{i}}(\theta)=-E_{t_{m s k}\sim\mathrm{t~log~}}P_{\theta}\left(t_{m s k}\mid t_{\neg m s k},\mathbf{M}_{\neg i}\right),\quad(1) LMi(θ)=Etmskt log Pθ(tmskt¬msk,M¬i),(1)
其中, t ¬ m s k t_{\neg m s k} t¬msk表示围绕屏蔽令牌 t m s k t_{msk} tmsk的未屏蔽令牌, θ θ θ表示网络参数,并且 M i M_i Mi M ¬ i {M}_{\neg i} M¬i分别是第 i i i模态和剩余模态。

4.3.自我和谐的通道间对比学习

 自我和谐的跨通道对比学习(SIMCL)是我们提出的SCALE框架的核心。它的目的是促进不同的模态之间的语义对齐,通过自适应的跨模态对比学习(IMCL)的自协调策略。对于一小批模态样本 D   ∈   R B × M × F D~\in~R^{B\times M\times F} D  RB×M×F,其中B、M和F分别表示批量大小、模态个数和嵌入维数,首先构造各模态之间的对比损失.
在这里插入图片描述

图4. 我们的SCALE框架的模态间对比学习模块。

给定 N N N个数据样本 { ( d i ( 0 ) ,    d i ( 1 ) ) } i = 1 N \left\{\left(d_{i}^{\left(0\right)},\ \ d_{i}^{\left(1\right)}\right)\right\}^{N}_{i=1} {(di(0),  di(1))}i=1N,其中每个样本具有两个模态 ( 0 ) (0) 0 ( 1 ) (1) 1,我们选择 N N N个模态对作为对比学习中的正对。对于每个正对 ( d i ( 0 ) , d i ( 1 ) ) (d^{(0)}_i,d^{(1)}_i) (di(0),di(1)),通过将 d i ( 0 ) d^{(0)}_i di(0) d i ( 1 ) d^{(1)}_i di(1)与来自另一模态的剩余 N − 1 N-1 N1个样本配对来构建负对,从而产生 2 ( N − 1 ) 2(N-1) 2N1个负对。对于模态对 ( d i ( 0 ) , d i ( 1 ) ) (d^{(0)}_i,d^{(1)}_i) (di(0),di(1))及其嵌入特征 ( f i ( 0 ) , f i ( 1 ) ) (f^{(0)}_i,f^{(1)}_i) (fi(0),fi(1)),每个模态对的跨模态对比损失为:
L C L ( d i ( 0 ) ,   d i ( 1 ) ) = − log ⁡ exp ⁡ ( sim ⁡ ( f i ( 0 ) , f i ( 1 ) ) / τ ) ∑ m = 0 1   ∑ k = 1 N   1 [ k ≠   i ]   exp ⁡ ( s i m ( f i ( m )   , f k ( 1 − m ) ) / τ ) ( 2 ) \mathcal{L}_{CL}\left(\mathcal{d}_{i}^{(0)},\,\mathcal{d}_{i}^{(1)}\right)=-\log \frac{\exp\left(\operatorname{sim}\left(f_{i}^{\left(0\right)},f_{i}^{\left(1\right)}\right)/\tau\right)}{\sum_{m=0}^{1}\,\sum_{k=1}^{N}\,\mathbf{1}_{[k\neq{{}}\,i]}\,\exp\left(\mathrm{sim}\left(f_{i}^{(m)}\,,f_{k}^{(1-m)}\right)/\tau\right)} \qquad \qquad(2) LCL(di(0),di(1))=logm=01k=1N1[k=i]exp(sim(fi(m),fk(1m))/τ)exp(sim(fi(0),fi(1))/τ)2
其中 s i m sim sim是余弦相似性, τ τ τ是温度参数, 1 [ k = i ] 1_{[k =i]} 1[k=i]是二进制指示函数,对于 k ≠ i k \neq i k=i 1 1 1=1,否则为0。
 在大多数先前的工作中,仅考虑两种模态,并且方程2可以使用。然而,当考虑三模态数据或甚至超过三种模态的数据时,不适合直接拟合损失函数,因为它没有考虑不同模态贡献的补充信息的差异。针对这一问题,该文通过定义一种简单而有效的自协调方法,对通道间关系的互补过程进行建模。我们引入模态比对得分矩阵,以编码模态间损耗LCL和模态内损耗LMi之间的关系。每个数据样本的对准得分矩阵S由零矩阵初始化,并更新为自由模型参数。为了获得每个模态组合的模态重要性分数,我们将softmax函数应用于S。最后,将重要性分数相乘以生成模态匹配分数 S S S,如 S = S ⋅ s o f t m a x ( S ) S = S · softmax(S) S=SsoftmaxS。学习过程如图4所示,说明了SIMCL充分利用了模态间的关系。给定模态对准分数 S S S,选择三角形部分 S ∇ S_{\nabla} S来加权模态间损耗 L C L L_{CL} LCL,并且使用对角部分S来约束模态内损耗 L M i L_{Mi} LMi,从而得到加权损耗:
L t o t a l = ∑ S i , j S ▽ L C L i , j ( S i , j l o g ı ˙ t i , j ) + ∑ S i S ∖ L M i ( S i l o g ı ˙ t i ) \mathcal{L}_{t o t a l}=\sum_{S_{i,j}}^{S_{\bigtriangledown}}\mathcal{L}_{C L_{i,j}}\left(S_{i,j}l o g\dot{\imath}t_{i,j}\right)+\sum_{S_{i}}^{S_{\setminus}}\mathcal{L}_{M_{i}}\left(S_{i}l o g\dot{\imath}t_{i}\right) Ltotal=Si,jSLCLi,j(Si,jlog˙ti,j)+SiSLMi(Silog˙ti)
其中logit是损失logit。

5.实验

实作详细数据。我们使用BERT [10]来初始化我们所提出的SCALE框架的文本Transformer,而其余的转换器被随机初始化。单模态编码器和多模态融合编码器均由6个Transformer层组成,总共12个Transformer层。每个模态Transformer的隐藏状态大小是768,并且字幕和表格的最大序列长度分别被设置为36和64。使用与[30] 5中相同的设置,我们利用Faster R-CNN [40]和在Visual Genome数据集[23]上预训练的主干ResNet 101 [15],以提取所选10至36个边界框的区域特征,每个图像具有高等级检测概率。我们使用Adam优化器[21],以1 e-4的预热学习率,在5个时期内,以总批量为64的方式训练SCALE。补充材料的G部分提供了我们模型的其他实施细节。
基线。我们将SCALE与以下8种使用图像和文本模态以及两者组合的备选预训练方法进行了比较:Bert [10](基于文本)、基于图像、ViLBERT [30]、CLIP [38]、VLBERT [42]、VisualBERT [27]、UNITER [7]和CAPTURE [56]。Imagebased和BERT [10]是基于MLM(掩码语言建模)或MRP(掩码区域预测)任务的12层转换器,使用图像或文本模态,为产品检索、分类和聚类任务提供单模态基线。为确保公平比较,所有基线都选择了相同的隐藏大小768。
评价 我们考虑以下四个下游任务来评估所学习的表示:1)多模态检索:该任务旨在使用两个或更多模态的组合来找到最相关的目标产品。2)细粒度的多模态检索:在实例级别上进行检索,其中只有相同产品的样本(即颜色、型号、形状和风格)被认为是匹配6; 3)多模态分类:使用线性分类器给出从SCALE的联合协变换器中提取的多模态特征的产品类别分类;以及4)多模态聚类:使用k均值聚类和与分类设置中相同的特征的产品类别聚类。对于产品检索,我们采用广泛使用的平均精度(mAP)和精度(Prec)[14,31,49]指标来评估两项检索任务的检索准确性。对于产品分类和聚类,使用分类精度(分类准确度)、归一化互信息(NMI)[52]和纯度指标对所有方法进行评价。在所有实验中,模型都是在训练分裂上训练的。然后应用预训练的模型来提取图库的模态特征,并测试产品检索和聚类任务的分割。对于分类任务,我们在包含1,805个类别/类的分类子集上微调预训练的模型,并利用微调后的模型提取分类测试集的特征。

5.1.模态多样性

 为了检查我们提出的SCALE框架的性能,并验证不同模态和数据集规模的好处,我们用越来越多的模态训练SCALE,并观察整个M5Product数据集和子集的分类和多模态检索性能的变化。更具体地说,融合特征是在对分类任务进行微调后,以及在对(粗)多模态检索任务进行预训练和微调后,从我们的SCALE的联合协变换器(JCT)中提取的。表3中的结果显示,随着模态的增加,所有设置的性能都有所提高,说明了补充模态信息对学习多模态特征表示的好处。还可以观察到,模态增益在整个数据集上更大,支持有趣的观察结果1。
 我们进一步提供了一组广泛的模态组合的结果,以验证SCALEs在利用我们的M5Product数据集的各种模态方面的有效性。表4提供了粗粒度和细粒度多模态检索任务以及微调模型后的分类任务的结果。与之前的实验一样,随着增加其他模式,可以观察到明显的改善。特别是,添加文本模态导致高模态增益,验证了包括更多样化的模态的好处,这些模态可以捕获同一产品的不同视图。有趣的是,在大多数情况下,粗粒度检索任务的性能明显低于细粒度检索任务,这表明M5Product数据集的复杂性和每个类别中产品的多样性。
语义对齐。为了进一步证明模态多样性的重要性,我们计算了模态相关性,即通过JCT获得的图像和文本特征之间的平均余弦相似性,用于增加数量的模态。图5示出了预训练模型的语义对齐能力随着模态数量的增加而增加。
在这里插入图片描述

表3.通过在子集(顶部)和整个数据集(底部)上使用SCALE依次添加更多模态,(预训练/微调)性能得到提高。检索性能基于预训练和精调阶段提取的特征。

在这里插入图片描述

表4.在粗粒度和细粒度的多模态检索和分类任务中,我们的模型SCALE在不同模态组合下的性能。在下文中,I、T、Tab、V和A分别表示图像、文本、表格、视频和音频模态。

在这里插入图片描述

表5.子集(顶部)和整个数据集(底部)上的图像和文本模态的比较。

在这里插入图片描述
在这里插入图片描述

表7.针对扫描床模态分析不同的屏蔽任务(令牌屏蔽(MLM)和实体屏蔽(MEM))。
表8.分别处理文本和表格模态(T/Tab)或堆叠在一起(T+Tab)的分析。

5.2.多模式下游任务

 我们在M5 Product数据集上评估SCALE的产品检索、分类和聚类任务,并将结果与表5中的几种基准方法进行比较。对于分别仅利用图像和文本特征的基于图像的模型和BERT [10]模型,提取的特征被直接输入分类模型。对于我们的SCALE方法,我们利用联合协变换器生成的融合模态特征,这些特征在图像和文本模态上都经过了预训练。只有利用图像和文本模态,我们才能与最近的最先进方法ViLBERT [30],CLIP [38],VL-BERT [42],VisualBERT [27],UNITER [7]和CAPTURE [56]进行公平比较。将我们的SCALE框架与单峰模型 I m a g e b a s e d 和 Image_{based}和 ImagebasedBert [10]进行比较,我们观察到利用多模态数据显着提高了所有任务的性能。我们进一步观察到,通过利用SIMCL,SCALE可以有效地融合模态并优于所有基线方法(有趣的观察2)。
在这里插入图片描述

图5.模态相关增益随模态数量的变化。
图6.通过t-SNE可视化SCALE和VILBERT生成的嵌入。属于同一类别的点具有相同的颜色。最好用彩色观看。

在这里插入图片描述

图7.通过我们的量表学习到的建议的注意力归因。

5.3.消融研究和可视化

 为了探索SIMCL如何影响IMCL和Pretext任务,我们进行了几项消融研究。表6说明了在分类任务中获得约2%的改进,并且当包括两者时,粗粒度检索任务获得超过2%的改进,突出了预文本任务和SIMCL的有效模态融合的重要性。我们进一步分析了表模态的MEM借口任务的效果,并在表7中显示了屏蔽完整实体相对于屏蔽单个令牌(MLM)的好处。这种好处可以归因于这样一个事实:MEM确保SCALE学习对完整实体的语义信息进行编码的表示。最后,我们评估了使用单个模态编码器对文本和表格模态进行建模的性能,并将SCALE的检索性能与文本和表格信息连接并馈送到单个Transformer的基线进行比较,类似于BERT [10]的过程。通过分别对两种模态进行建模,表8中的结果说明可以保留更多的信息,并且我们假设使用单个Transformer会导致表格模态信息的丢失,从而有利于更具表达力的文本模态。
 图6显示了我们SCALE模型的JCT模块和M5 Product数据集上的替代方法ViLBert [30]的提取特征的t-SNE可视化。SCALE不仅可以更好地区分不同的类,而且与ViLBert模型相比还可以提高类的紧凑性。此外,不同模态的注意力归因如图7所示,并验证了SCALE生成的视觉特征是面向对象的和语义可解释的。

6.局限性和今后的工作

 实验结果表明,SCALE能够从大量的模态中学习有效的表示,用于检索,分类和聚类。然而,缺乏对模型表示的生成能力的更多评估,图像和字幕生成等任务可能是值得探索的方向。我们进一步提供了一些SCALE的失败案例补充J部分。
潜在的负面社会影响。由于数据收集过程中严格的道德考虑因素,其中包括个人身份信息已被删除,M5Product不会造成任何道德风险。

7.结论与讨论

 为了促进多模态预训练,我们提出了M5Product数据集,这是最大的多模态电子商务产品数据集,由五种核心模态(图像,文本,表格,视频和音频)组成。为了进一步促进零售业的多模态研究,提高卖家和买家的参与度,我们还提出了新的SCALE多模态预训练框架。通过利用自协调模态间对比学习(SIMCL),SCALE能够有效地建模和利用模态关系,并在M5产品多模态检索,分类和聚类任务上优于以前的方法。我们相信,数据集和拟议的框架工作将激发对扩展多模式预训练的研究,超越常用的图像和文本模式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值