系列论文研读目录
文章目录
摘要
电子商务中的跨语言-图像模态检索是产品搜索、推荐和营销服务的基础问题。为了克服一般领域中的跨模态检索问题,人们已经进行了广泛的努力。在电子商务中,一种常见的做法是采用预先训练好的模型,对电子商务数据进行微调。该算法虽然简单,但由于忽略了电子商务多模态数据的独特性,性能并不理想。最近的一些工作[10,72]已经显示了对具有用于处理产品图像的定制设计的通用方法的显著改进。不幸的是,据我们所知,没有一种现有的方法能够解决电子商务语言中的独特挑战。本文研究了一个突出的,其中有大量的特殊意义实体的集合,如,时尚服装业务中的“Dissel(品牌)“、“Top(类别)”、“Releasy(合身)”。通过在因果推理范式中对这种分布外的微调过程进行表述,我们将这些特殊实体的错误语义视为导致检索失败的混杂因素。为了修正这些语义以与电子商务领域的知识相匹配,我们提出了一个基于干预的实体感知对比学习框架,混杂实体选择模块和实体感知学习模块。在电子商务基准测试Fashion-Gen上,我们的方法取得了很好的性能,尤其是在前1位准确率(R@1)方面,我们观察到在图像到文本和文本到图像的检索中,与最接近的基线相比,分别有10.3%和10.5%的相对改进.
1.引言
跨视觉和语言检索作为多模态搜索系统的基本组成部分,已得到广泛研究[13、18、24、27、32、38、41、43、69、70]。它将语言数据作为查询,并检索相应的视觉数据,反之亦然。这一领域的一个关键挑战是如何在语义上对齐视觉和文本数据。

图1.一般领域和电子商务领域之间的领域转移说明。在电子商务领域中,具有强领域语义的标签实体的集合与标题/描述和图像相关联。
在电子商务产品的跨模态检索中,电子商务图像和电子商务语言都有许多独特的特点。如图1所示,一个电子商务产品图片通常只包含一个简单的场景,有一个或两个前景物体和一个普通的背景。同时,电子商务语言通常由一组元数据(标签实体)[15,39]组成,包括产品名称/描述、品牌、类别、成分等。之前的工作(如FashionBERT [10]和KaleidoBERT [72])表明,时尚领域的跨模态检索需要更细粒度的特征(如短袖和圆领)。然而,流行的基于感兴趣区域(RoI)[11]的方法检测到具有重复目标区域或与产品无关的子区域的不令人满意的区域提议。为此,这些工作集中在通过基于面片的方法对图像进行细粒度表示学习。尽管取得了巨大的成功,但他们只关注图像的挑战,而语言部分仍然遵循香草BERT [5]。
在这项工作中,我们改进了跨模态产品检索的语言部分。具体来说,我们设计我们的模型的两个动机来自电子商务中独特的语言。动机1:在电子商务中,单词标记经常会产生特殊的含义,而[10,38,72]中的预训练语言模型部分尽管有大规模的预训练语料库,但仍有偏见。例如,在预训练的CLIP模型中,实体“diesel”与概念“fuel”紧密相关,而在电子商务时尚领域中,“diesel”被标记为品牌实体。其他例子包括“canada goose(品牌)“、“golden goose(品牌)”、“top(类别)"等。最近从因果推理的角度研究了多模态微调中的这种分布外问题[67]。Zhang等人将图像和语言之间的这种不受欢迎的虚假相关性表述为从预训练数据集学习的“混杂因素”。通过使用结构因果模型(SCM)图[36]建模,作者通过后门干预[36]进行硬干预以消除数据集偏倚。然而,在对混杂变量建模时,Zhang等人遵循传统的BERT令牌词汇表,将每个实体视为一组(子)单词令牌[10,72]。这忽略了电子商务中大量的特殊含义实体,如“Dissel(品牌)”,“top(类别)”,“fixed(适合)”。此外,这将不可避免地使不同的实体与共享的混淆(子)单词令牌(诸如“Canada Goose”和“Golden Goose”)相互干扰。为此,语言部分应该是实体感知的[31,47,71],并与预训练语言模型中编码的特殊实体的传统含义相分离。

图2.在Fashion-Gen上对图像到文本和文本到图像的任务进行了实证分析。报告了前1位准确度的结果。
同时,Meta数据的多样性导致了我们的动机2:Meta数据对跨模态检索的贡献是不均匀的。具体来说,以前的方法通常将所有元数据连接在一起以形成长句[10,24,38,41,43,72]。然而,这种简单的解决方案平等地对待每个Meta信息。在实践中,对于不同的图像/文本对,元数据(标签实体)可能有不同的贡献。有些元数据甚至可能对检索有害。为了支持这一说法,我们使用简单而有效的CLIP模型对Fashion-Gen数据集进行了实证研究[38]。考虑到Fashion-Gen数据集上不同的Meta实体串联,我们对预训练的CLIP模型进行了微调。从图2可以看出,给定产品描述(深蓝色),“品牌”(橙子)是唯一有用的元数据。添加“类别”(黄色)、“季节”(灰色)或“组成”(浅蓝色)对性能的贡献很小,甚至会损害性能。更重要的是,如果我们连接所有的Meta数据(绿色),与在文本到图像和图像到文本任务中仅附加“品牌”相比,这两个性能都下降了。为此,重要的是要确定有益的元数据,同时丢弃其他元数据。
因为动机,我们提出了一个具有因果意识的基于干预的对比学习框架,称为EI-CLIP,用于电子商务产品检索问题,在因果学习范式中有两个特定的模块设计,即,动机-1的认知学习模块(EA-学习者)和动机-2的混淆实体选择模块(CE-选择器)。值得澄清的是,我们没有提出一个新的因果关系的方法,而是制定实体感知的电子商务跨模态检索问题的因果视图。具体来说,EA学习器学习每个信息混杂实体的个体表示,以更好地缓解分布外问题。然后,CE选择器旨在自动选择信息量最大的Meta数据组(例如,“品牌”在图2)从丰富的文本Meta数据。
我们将我们的主要贡献总结如下:·据我们所知,这是一项开创性的工作,旨在应对电子商务特殊实体在语言模态方面带来的挑战.以往的跨模态检索工作主要集中在图像上。·我们是第一个从因果关系的角度来阐述实体感知检索任务的人。我们认为,在一般领域中学习到的电子商务特殊实体的错误语义是导致检索失败的混杂因素。·在因果推理中引入后门调整[36],我们提出了一个基于实体感知干预的对比学习框架(EI-CLIP),该框架包含两个新的组成部分:CE选择者和EA学习者。· EI-CLIP在电子商务基准数据集Fashion-Gen上实现了具有竞争力的性能。特别是,在前1位准确度(R@1)方面,我们观察到在图像到文本和文本到图像方面,与最接近的基线相比,分别提高了10.3%和10.5%。
2.相关工作
图像-文本匹配视觉语言表征学习有许多下游应用,包括图像标题,视觉问答,跨模态检索(图像-文本匹配)等。我们的工作与图像-文本匹配密切相关,其中的关键问题是如何在语义上对齐图像和文本。早期的工作从利用浅层模型开始,将整个图像和句子投影到潜在子空间中,然后在图像/句子级别对齐两个模态[13,19]。近十年来,深度模型(例如,用于图像的卷积神经网络和用于句子的长短期记忆网络[16])已被广泛应用于提取更好的表示,然后通过典型相关分析[41,55],排名损失[9,20],硬示例挖掘[3,8]等进行图像/句子级别对齐。为了实现细粒度的级别对齐,注意力机制已经被并入以将单词/区域标记与不同的粒度级别(诸如单词级别[18,22,52]、短语/关系级别[24,49]等)对齐。最近,随着基于transformer的预训练的巨大成功[5,48],已经提出了许多视觉语言预训练方法,例如VL-BERT [43],ViLBERT [32],VideoBERT [44],LXMERT [45],UnicoderVL [23],OSCAR [25]等。最近,随着视觉变换器的发展[7,29,33,46,56,62],拉德福等人。[38]介绍了一个简单而强大的多模态预训练框架(CLIP),该框架基于4亿图像-文本配对训练语料库上的对比学习[4,12,12,14,59 -61]。虽然没有专门设计单词/区域级对齐机制,但它在单词/区域标记级对齐上显示出优于其他方法的上级能力。我们的工作遵循CLIP框架。
基于时尚的跨模态检索 与一般的视觉语言领域相比,基于时尚的任务需要更多地关注任务特定的知识,例如细粒度信息[6,10,64,72]。FashionBERT [10]是时尚领域的第一个视觉语言模型。提出了一种基于块的方法,以保留更多的原始像素级信息。然后,分裂的非重复补丁连同查询词令牌被馈送到跨模态BERT模型进行联合学习。后来,Kaleido-BERT [72]进一步应用了几个不同尺度的自我监督任务,以更加关注图像-文本的连贯性。然而,这些方法都只注重视觉部分,而忽略了电子商务语言的独特性。我们的工作旨在解决来自语言模式的挑战。
多模态学习中的因果关系 因果推理已经在许多视觉和语言应用中成功探索,例如视觉中的图像分类[2,30,58,63],语义分割[65],视频动作定位[26,28,57],以及语言中的文本分类[53],文本问答[42],命名实体识别[68]。这项工作的重点是多模态学习,其中一些现有的作品已经触及。Wang等人。[50,51]提出了一种基于视觉常识区域的卷积神经网络(VC R-CNN)来处理图像中对象之间的虚假相关性。尽管去混淆的VC R-CNN在许多多模态应用中显示出令人鼓舞的结果,但因果干预仅被考虑用于视觉领域。Zhang等人。[67]研究了多模态预训练模型在应用于分布外微调任务时的虚假相关性。DeVLBert提出的核心思想是采用硬干预来后门调整[36]给定单词标记(在语言中)的对象标记(在视觉中)的条件概率,或反之亦然。在这项工作中,我们也对一个类似的问题感兴趣,这个问题的动机是将一个预先训练好的通用多模态模型适应于一个分销外的下游电子商务数据集的实际挑战。虽然除了任务的差异,即通用多模态表征学习(DeVLBert)与特定的跨模态检索(我们的),我们的工作旨在减轻特殊实体的偏见语义,而以前的工作集中在对象之间的相关性。
3.方法
3.1.重温CLIP
拉德福等人[38]认为,预先确定的对象类别为计算机视觉网络提供了有限的监督。相反,直接从原始文本描述中学习图像是一种有效的方法,可以利用丰富的监督信息。[38]提出了CLIP(对比图像预训练)模型,该模型应用对比学习在4亿个图像-文本对的数据集上从头开始学习视觉表示。具体地,给定一批图像-文本对
{
(
I
i
,
T
i
)
}
i
=
1
N
\{(I_i,T_i)\}^N_{i=1}
{(Ii,Ti)}i=1N,其中N是批量大小,图像编码器
h
I
(
⋅
)
h^I(·)
hI(⋅)和文本编码器
h
T
(
⋅
)
h^T(·)
hT(⋅)首先将图像和文本编码成多模态嵌入空间
R
d
R^d
Rd上的向量,其中
d
d
d是嵌入的维度。将图像嵌入和文本嵌入分别表示为
E
i
I
=
h
I
(
I
i
)
E_{i}^{I}\ {{{=}}}\ \ h^{I}(I_{i})
EiI = hI(Ii)和
E
i
T
=
h
T
(
T
i
)
E_{{i}}^{T}\:=\:h^{T}(T_{i})
EiT=hT(Ti)。如图3(a)所示,在训练期间,CLIP模型计算余弦相似度
E
i
T
⊙
E
j
I
(
i
,
j
∈
{
1
,
2
,
.
.
.
,
N
}
}
E_{i}^{T}⊙E_{j}^{I}\;(i,j\;\in\;\{1,2,...,N\}\}
EiT⊙EjI(i,j∈{1,2,...,N}}的所有
N
×
N
N × N
N×N可能的对。为了联合训练图像和文本编码器,CLIP最大化
N
N
N个匹配对的相似性,同时最小化所有其他
N
2
−
N
N^2−N
N2−N个不匹配对的相似性。在实践中,CLIP优化了
N
×
N
N×N
N×N相似性得分矩阵上的对称交叉熵损失。
CLIP算法仅基于图像和文本的全局嵌入来计算相似度。因此,它只学习单词标记和详细图像特征之间的对应关系。为此,需要足够大的数据集来在预训练过程中学习这种细粒度的对应关系。CLIP构建了一个包含互联网上4亿个图像-文本对的数据集。然而,当从一般领域的这个大数据集学习时,模型很容易偏向于“常识”知识边缘(常识可能有偏见。例如,“香蕉是黄色的”是常识,这是没有必要的。相反,香蕉可以是红色或绿色。CLIP中的其他偏倚情况在[1]中进行了讨论。)。通常,偏向公共域是有益的。然而,当它适应其他领域的对比学习,这是具有挑战性的模型学习所有的领域特定的知识,如电子商务领域的知识。例如,单词“柴油”通常指的是常识中的“柴油燃料”。然而,它是时尚领域的服装品牌。另一个例子是“金鹅”品牌。在常识中,我们把它们当作两个独立的词“金色”和“鹅”,并把它们称为颜色和动物。考虑到微调示例的数量有限,模型很难学习到这些特殊词指的是品牌。因此,模型仍然保持其关于这些单词的常识知识。因此,需要一种方法来减轻CLIP中这些唯一词的错误语义。

图3.在培训期间比较CLIP(a)和我们的EI-CLIP(B)。CLIP(a)直接将所有实体附加到文本描述中,而我们的EI-CLIP则单独对它们进行编码。在此基础上,我们进一步利用CE-Selector自动筛选出重要的混淆实体,并利用EA-Learner将实体信息引入到描述中。更多详情请参见第3.3节。
3.2.因果观中的CLIP
在因果观中,我们把给定的文本 T i T_i Ti看作 X X X,把图像 I i I_i Ii看作 Y Y Y。对于CLIP,对比学习的目标是学习函数 P ( Y ∣ X ) P(Y| X) P(Y∣X)与函数 P ( X ∣ Y ) P(X| Y) P(X∣Y)的函数。我们使用 P ( Y ∣ X ) P(Y| X) P(Y∣X)的计算为例来说明因果观。我们将这些特殊实体的语义视为混杂因素Z,它可能影响 X X X或 Y Y Y。具体地,我们定义 z = g ( a , b ) z = g(a,b) z=g(a,b),这意味着实体 a a a采用语义 b b b。实体 a a a通常保持几种语义,并且是文本 X X X的一部分。例如, g ( g o l d e n g o o s e ,“ a n i m a l ”) g(golden goose,“animal”) g(goldengoose,“animal”)的意思是“golden goose”一词指的是动物,而 g ( g o l d e n g o o s e ,“ b r a n d ”) g(golden goose,“brand”) g(goldengoose,“brand”)指的是品牌。当仅从 P ( Y ∣ X ) P(Y| X) P(Y∣X)学习时,混杂因素可能会在模型中引入虚假相关性。形式上,根据贝叶斯规则,可能性可以写成[36]: P ( Y ∣ X ) = ∑ z P ( Y , z ∣ X ) = ∑ z P ( Y ∣ X , z ) P ( z ∣ X ) ‾ , ( 1 ) P(Y|X)=\sum_{z}P(Y,z|X)=\sum_{z}P(Y|X,z)\underline{P(z|X)} ,\qquad(1) P(Y∣X)=z∑P(Y,z∣X)=z∑P(Y∣X,z)P(z∣X),(1)
其中,混杂因素
z
z
z通过
P
(
z
∣
X
)
P(z|X)
P(z∣X)引入训练集的偏差。由于CLIP是在一般领域中训练的,因此很容易偏向于常识。给定文本
X
=
X =
X= “ A T-shirt of golden goose”,等式(1)中的大部分似然和将分配给
P
(
Y
∣
X
,
z
=
g
(
g
o
l
d
e
n
g
o
o
s
e
,“
a
n
i
m
a
l
”))
P(Y| X,z = g(golden goose,“animal”))
P(Y∣X,z=g(goldengoose,“animal”)),自
P
(
z
=
g
(
g
o
l
d
e
n
g
o
o
s
e
,
“
a
n
i
m
a
l
”
)
∣
X
)
P(z = g(golden goose,“animal”)|X)
P(z=g(goldengoose,“animal”)∣X)在一般域中是大的。因此,当适应于时尚领域时,函数
P
(
Y
∣
X
)
P(Y| X)
P(Y∣X)倾向于检索带有鹅或金色的图像,而不是检索相应品牌的服装。
为了调整混杂因子
Z
Z
Z在其他域中的影响,我们用do-calculus干预
X
X
X [50,67]。具体地说,我们切断了
X
X
X和
Z
Z
Z之间的依赖关系。根据do-calculus的定义,我们有

与等式(1)相比,
z
z
z不再受
X
X
X的影响。
Y
Y
Y的预测取决于训练集的先验
P
(
z
)
P(z)
P(z),
P
(
z
)
P(z)
P(z)可以很容易地预先计算[50,67]。在时尚领域,先验
P
(
z
=
g
(
g
o
l
d
e
n
g
o
o
s
e
,“
b
r
a
n
d
”
)
)
P(z = g(golden goose,“brand”))
P(z=g(goldengoose,“brand”))主导着可能性(可能性概率较大)。因此,可以减轻对一般领域常识的偏见。
3.3.EI-CLIP:实施
在电子商务领域,文本
T
i
T_i
Ti由两部分组成:一是文本描述
T
i
D
T_i^D
TiD,它描述产品的细节。另一个是实体集合
T
i
A
=
{
a
i
k
}
k
=
1
K
T_{i}^{A}=\{a_{i}^{k}\}_{k=1}^{K}
TiA={aik}k=1K,其中
K
K
K是实体的总数,
a
i
k
a^k_i
aik是第
k
k
k个实体。通常有一些关于产品的元数据(标签实体),如品牌和类别,代表特定领域的知识。为了解决这些具有挑战性的实体,我们提出了EI-CLIP,如图3(b)所示。具体来说,我们设计了两个模块来实现
P
(
Y
∣
d
o
(
X
)
)
P(Y| do(X))
P(Y∣do(X))。一个是语义感知学习模块(EA-Learner),另一个是混淆实体选择模块(CE-Learner)。
EA-Learner 本模块旨在明确捕获每个个体实体信息,而无需担心通用和电子商务领域之间的模糊实体语义或由于共享(子)单词标记(第1节中的动机-1)而交织的实体表示。对比学习形成为小批量内的分类任务。我们表示
j
∈
{
1
,
2
,
.
,
N
}
j ∈\{1,2,.,N \}
j∈{1,2,.,N}作为小批量中的索引。因此,预测
P
(
Y
∣
X
,
z
)
P(Y| X,z)
P(Y∣X,z)在Eq.2可以看作是一个分类器:
P
(
Y
∣
X
,
z
)
=
S
o
f
t
m
a
x
f
j
(
X
,
z
)
P(Y| X,z)= Softmaxf_j(X,z)
P(Y∣X,z)=Softmaxfj(X,z),其中
f
j
(
X
,
z
)
f_j(X,z)
fj(X,z)表示干预的分类头。类似于[50,67],使用NGSM(归一化加权几何平均值)[54]的近似,等式2可以实现为:

根据定义,我们有
z
=
g
(
a
,
b
)
z=g(a,b)
z=g(a,b)。因此,
E
Z
(
f
j
(
X
,
(
x
)
)
\mathbb{E}_{Z}\left(\ f_{j}\left(X,(\mathcal{x}\right)\right)
EZ( fj(X,(x))在等式(3)中可以写成:

实际上,
P
(
z
=
g
(
a
,
b
)
)
P(z = g(a,b))
P(z=g(a,b))可以通过对训练集中给定实体
a
a
a的所有语义
b
b
b的频率进行计数来近似。为简单起见,我们假设在时尚领域中的文本描述
T
i
T_i
Ti(即变量
X
X
X)中只有一个特殊实体
a
i
a_i
ai。实体
a
i
a_i
ai维护多个语义
b
i
,
m
∈
B
i
1
,
B
i
2
b_{i,m} ∈ \mathbb{B}^1_i,\mathbb{B}^2_i
bi,m∈Bi1,Bi2,其中
B
i
1
\mathbb{B}^1_i
Bi1包含
a
i
a_i
ai在一般域中的所有语义,
B
i
2
\mathbb{B}^2_i
Bi2包含
a
i
a_i
ai在时尚域中的特殊语义,
m
m
m是集合
B
1
∪
B
2
\mathbb{B}_1 \cup\mathbb{B}_2
B1∪B2中语义的索引.当
b
i
,
m
∈
B
1
b_{i,m} ∈ \mathbb{B}_1
bi,m∈B1时,
a
i
a_i
ai指的是一般语义。然而,请注意,在我们的时尚检索问题中,
a
i
a_i
ai已经被标记为特殊实体,并在Meta数据中被分配给一个唯一的语义(例如,golden goose作为“品牌”)。因此,当
b
i
,
m
∈
B
1
b_{i,m} ∈ \mathbb{B}_1
bi,m∈B1时,概率
P
(
z
=
g
(
a
i
,
b
i
,
m
)
)
P(z = g(a_i,b_{i,m}))
P(z=g(ai,bi,m))为0。为此,我们只需要考虑
b
i
,
m
∈
B
2
b_{i,m} ∈ \mathbb{B}_2
bi,m∈B2的情况。由于语义的唯一性,我们从头开始训练一个实体编码器
h
A
(
⋅
)
h^A(·)
hA(⋅)来学习实体嵌入:
E
i
A
=
h
A
(
a
i
)
∈
R
d
E_{i}^{A}\ =\ h^{A}(a_{i})\;\in\;{\mathcal{R}}^{d}
EiA = hA(ai)∈Rd被作为一个整体而不是多个(子)单词令牌来处理。同时,利用文本编码器
h
T
(
⋅
)
h^T(·)
hT(⋅)得到了
T
i
D
T_i^D
TiD的嵌入:
E
i
D
=
h
T
(
T
i
D
)
E_{i}^{D}=~h^{T}(T_{i}^{D})
EiD= hT(TiD).如[17,38]中所总结的,在多模态嵌入内存在线性关系[34]。在这方面,我们通过
E
i
T
=
E
i
D
+
E
i
A
E_{i}^{T}~=~E_{i}^{D}~+~E_{i}^{A}
EiT = EiD + EiA得到了
T
i
T_i
Ti的全局嵌入.在这种情况下,
f
j
(
X
,
z
)
f_j(X,z)
fj(X,z)由
E
j
⊙
(
E
i
D
+
E
i
A
)
E_{j}⊙(E_{i}^{D}\;+\;E_{i}^{A})
Ej⊙(EiD+EiA)参数化。因此,方程3可以改写为:

通过这种设计,CLIP的语言部分知道这些实体的独特语义,并从预训练过程中编码的一般语义中解脱出来。
CE-Selector 由于存在K个具有特殊语义的实体,因此通常的做法是在原始字符串级别将所有实体与文本描述
T
i
D
T^D_i
TiD连接起来。然而,如图2所示,这种朴素的方法并不能很好地推广,因为并非所有的混杂实体组都是信息性的,并且一些混杂因素甚至是有害的。在第一节的动机-2中,CE选择器的目的是选择重要的实体,其语义是唯一的,在时尚领域的图像检索信息。
由于K个实体属于不同的组,例如品牌和类别,我们学习
K
K
K个单独的实体编码器
h
k
A
(
⋅
)
h_{k}^{A}(\cdot)
hkA(⋅)。一旦获得所有实体的嵌入
{
h
k
A
(
a
i
k
)
}
k
=
1
K
\{h_{k}^{A}(a_{i}^{k})\}_{k=1}^{K}
{hkA(aik)}k=1K,我们遵循门控机制[66]并设计门网络
G
k
(
⋅
)
G_{k}(\cdot)
Gk(⋅)来确定每组实体的重要性并选择有用的混淆因素。具体地,选择因子
w
k
w_k
wk可以被定义为
w
k
=
G
k
(
h
k
A
(
a
i
k
)
)
w_{k}\,=\,G_{k}(h_{k}^{A}(a_{i}^{k}))
wk=Gk(hkA(aik))。我们使用MLP层和sigmoid函数实现
G
k
(
⋅
)
G_{k}(\cdot)
Gk(⋅),以确保
w
k
w_k
wk的值在
(
0
,
1
)
(0,1)
(0,1)的范围内。我们进一步将它们融合到一个全局实体嵌入
E
^
i
A
{\hat{E}}_{i}^{A}
E^iA中,
E
^
i
A
=
∑
k
w
k
⋅
h
k
A
(
a
i
k
)
{\hat{E}}_{i}^{A}=\ \sum_{k}\,w_{k}\cdot h_{k}^{A}(a_i^k)
E^iA= ∑kwk⋅hkA(aik)。因此,对于
T
i
A
=
{
α
i
k
}
k
=
1
K
⋅
T_{i}^{A}\ =\ {\{\alpha_{i}^{k}\}_{k=1}^{K\,\cdot}}
TiA = {αik}k=1K⋅中的多个实体,等式3的执行方式是:

训练 为了避免常识偏差影响
h
k
A
(
⋅
)
h_{k}^{A}(\cdot)
hkA(⋅)的学习,我们在训练期间将
h
k
A
(
⋅
)
h_{k}^{A}(\cdot)
hkA(⋅)和预先训练的
h
T
(
⋅
)
h_{}^{T}(\cdot)
hT(⋅)分开。具体地说,除了计算
E
j
I
E^I_j
EjI与
E
i
D
+
E
^
i
A
E_{i}^{D}+\hat{E}_{i}^{A}
EiD+E^iA的对比损失外,还计算了
E
j
I
E_j^I
EjI与
E
i
D
E_i^D
EiD的对比损失和
E
j
I
E_j^I
EjI与
E
^
i
A
\hat{E}_i^A
E^iA的对比损失。
4.实验
4.1.设置
数据集 根据FashionBERT [10]和Kaleido-BERT [72],我们在Fashion-Gen数据集上评估了我们的方法[39]。有67,666种时尚产品。每个产品都有一个文字描述和一至六个不同角度的图像。具体地,分别使用260、480和35、528个图像-文本对来进行训练和测试。每种产品有4组实体。具体来说,它们是品牌、子类别、季节和构成。我们用B、C、S和P来表示它们。在所有产品中,共有570个品牌、122个小类、10个季节、16844种成分。此外,我们在Amazon评论的子集上创建了一个新的数据集[35]。它包含了20,507个时尚领域的图像-文本对。我们用了14354对来训练,用了6153对来测试。我们只使用184个品牌作为特殊实体。与Fashion-Gen相比,该数据集的文本描述更简洁、更模糊,这使得其更具挑战性。
实施细节 我们从已发布的预训练CLIP模型[38]开始,该模型应用ViT-B [7]作为视觉编码器
f
I
(
⋅
)
f_I(·)
fI(⋅),应用Transformer [48]作为文本编码器
f
T
(
⋅
)
f_T(·)
fT(⋅)。输入图像的大小被调整为224×224,输入文本描述由小写字节对编码(BPE)[40]表示,vocab大小为49,152。实体编码器
h
k
A
(
⋅
)
h_{k}^{A}(\cdot)
hkA(⋅)由一个嵌入层和一个MLP层实现。嵌入维度
d
d
d被设置为512。在[10,72]之后,权重衰减为
1
e
−
4
1e−4
1e−4的Adam优化器被用于微调预训练的CLIP模型。微调时期的总数设置为20。初始学习速率被设置为
5
e
−
5
5e−5
5e−5,并应用余弦退火学习速率衰减调度器。我们还为前
1
K
1K
1K步采取了热身策略。
评估 我们评估我们的方法在电子商务中的图像到文本(I2 T)检索和文本到图像(T2 I)检索。给定一个模态中的查询,该任务需要从候选排名集中检索另一模态中的匹配项。给定文本描述(或图像),正候选是来自同一产品的相关地面实况图像(或文本描述)。对于负的候选者,我们考虑两种设置。1)在[10,72]之后,我们从同一子类别的其他产品中随机抽取100张图像(或文本描述)。我们将该采样策略表示为“样本100”。2)我们还将整个产品集视为我们的候选集(表示为“Full candidate”),这是一个更具挑战性的设置。它更符合实际的产品检索场景,在产品推荐领域被广泛采用[21]。我们使用Rank@1(Top-1准确度),Rank@5,Rank@10来评估这两个检索任务的性能。在[72]之后,SumR=(Rank@1+Rank@5+Rank@10)*100被视为模型的总体指标。
4.2.EI-CLIP的有效性
我们考虑了几个基线来验证EI-CLIP的有效性。详细地说,这些模型是:① [38]发布的预训练的CLIP; ②我们用图像
I
i
I_i
Ii和每个产品的描述
T
i
D
T^D_i
TiD微调CLIP; ③我们用图像
I
i
I_i
Ii和描述与原始字符串级别的所有实体的组合微调CLIP; ④EI-CLIP,它平等地设置所有实体的权重
w
k
w_k
wk;⑤I-CLIP。

表1.Fashion-Gen. ↑的检索性能(完全候选)表示相对改善。
定量结果 结果见表1。首先,预先训练的CLIP模型①在时尚领域不能很好地泛化。因此,有必要进行微调,以缩小这一差距。其次,从②到③的改进表明,实体的信息有利于检索。第三,③的表现明显好于④。这意味着我们的EA学习者可以更好地学习特殊实体的语义(w.r.t.动机-1)。此外,我们还可以在检索的各个级别的召回中获得进一步的改进。结果表明,I2 T的R@1相对提高了10.3%,T2 I的R@1相对提高了10.5%,I2 T的R@1从23.3%提高到25.7%,T2 I的R@1从25.7%提高到28.4%。由于从完整候选项中检索正确的产品更具挑战性,因此我们的改进是巨大的。这支持CE选择器(w.r.t.动机2)。对于门控机制,我们发现季节的学习wk大约小到0.05。这也支持了我们的方法可以自动选择重要的混杂因素并去除有害的混杂因素。
定性结果 我们在图4中展示了模型③(基线)⑤(我们的)的跨模态检索示例。在示例(a)和(B)中,品牌由多个词组成。由于基线将它们分成几个标记,因此很难理解它们的语义。我们的方法可以正确地识别这些单词并检索图像。在示例(c)中,来自基线的结果类似于柴油机工人的单位,但查询需要“黑色”夹克。在示例(d)中,baseline的前1名结果的颜色是金色,但是查询要求跟部衣领是“金色色调”。这些情况表明,微调后的模型仍然保持了这些词的一般语义,无法学习领域知识。但是,我们可以正确地解决它们,并学习这些词作为品牌。除此之外,正如示例(e)和(f)中所示,我们的模型在“Gucci”和“Burberry”这样的品牌上仍然表现得更好,这些品牌不偏向常识。我们假设,这些词在一般领域的数量有限,很难学好。我们的方法还可以缩小分配差距。更多I2T和T2I示例见补充说明。
4.3.与最先进的方法比较
然后,我们将我们的方法与Fashion-Gen上以前的最新作品进行了比较。如[72]所示,FashionBERT [10]和Kaleido-BERT [72]已经击败了所有以前的多模态学习网络,包括ImageBERT [37],OSCAR [25],VLBEERT [43]和ViLBERT [32]。因此,我们只关注我们的工作与FashionBERT和Kaleido-BERT的比较。我们遵循“样本100”策略[10,72]来获得候选集以进行公平比较。由于所有候选项都属于同一个子类别,因此我们在评估中丢弃类别实体。此外,我们还再现了以前的作品与实体。我们仍然在4.2节中评估模型②、③和⑤,但使用不同的候选集。结果示于表2中。首先,与以前的方法相比,无论有没有实体,微调的香草CLIP都有明显的改进。我们相信,对比学习有助于模型顺利地学习识别一种模态的输入与另一种模态的一堆输入的能力。其次,EI-CLIP仍然带来了一些进一步的改进,尽管它是相对边缘的。请注意,在此评估中,所有100个阴性样本都属于同一类别,使得类别实体无法区分地面实况和阴性候选。此外,这是一个更容易的评估,因为候选人的大小是小的。
4.4.亚马逊评论上的结果
我们进一步评估我们的方法在亚马逊评论。由于只有品牌实体作为混杂因素,我们不再需要CE选择器。我们进行了完整的候选检索,结果如表3所示。我们的方法在具有挑战性的Amazon数据集上仍然优于CLIP,表明EI-CLIP在另一个电子商务场景中具有很好的推广性。


表2.在Fashion-Gen上的跨模态检索性能(样本100)。Fashion-BERT [10]和Kaleido-BERT [72]的报告的SumR分别为251.36和319.52。标有“*”的方法是我们复制的结果。FBERT代表时尚BERT。

表3.在亚马逊评论上的表现(完全候选人)。
4.5.消融研究
实体集 由于不同的实体扮演不同的角色,我们然后探索每个属性对Fashion-Gen的贡献。如图2和表4所示,在原始字符串级别,不同的属性带来不同的改进。品牌可以带来显著的改善,而季节、子类别和组合只能带来轻微的改善,甚至损害性能。此外,所有属性的组合(实验(c))的性能甚至比仅单独使用品牌属性更差。这表明朴素策略不能充分利用实体。我们假设,其他附加所有属性在一起可能会在原始文本中引入很多噪音,从而干扰自我注意模块的学习。
批量大小我们还探索了批量大小的影响,因为它严重影响了对比学习的性能[4,38]。通常,较大的批处理大小会带来更好的性能,但它需要更大的GPU内存。我们将批量从16改变到128,并将R@1的结果绘制在图5中。在所有级别的批量大小,我们的EI-CLIP始终击败基线微调CLIP。此外,在小批量设置上的改进更加明显,因此对于GPU内存有限的用户来说更有利。

表4.每种类型实体的消融研究。

图5.采用不同批量对我们的(EI-CLIP)和基线(第4.2节中的实验(c))进行比较。
5.限制
一个潜在的限制是,我们只考虑来自产品Meta数据的实体的语义作为混杂因素。这一假设简化了网络的设计,并清楚地展示了我们的网络的优势。然而,在实践中,任何隐变量都可能是影响 P ( Y ∣ X ) . P(Y|X). P(Y∣X).学习的混杂因素。此外,并不是所有的电子商务产品都像Fashion-Gen那样包含干净的Meta信息。处理一组嘈杂的Meta数据超出了本文的范围,但可能是一个潜在的挑战。
6.结论
在本文中,我们首先指出,公共知识的偏见限制了CLIP模型在电子商务领域微调时的泛化能力。为了缓解这个问题,我们遵循因果干预理论,提出EI-CLIP。具体地说,我们认为从Meta数据的产品的实体作为混杂因素,并编码它们单独的独立网络。大量的实验表明,我们的方法取得了更好的性能,更侧重于在电子商务领域的特殊实体的语义。


被折叠的 条评论
为什么被折叠?



