系列论文研读目录
文章目录
摘要
在电子商务应用中,视觉语言多模态Transformer模型在产品搜索中起着举足轻重的作用。成功训练多模态模型的关键在于数据集中图像-文本对的对齐质量。然而,在实践中,数据通常是自动收集的,人工干预最少。因此,图像文本对的对齐远非理想。在电子商务中,这种不一致可能源于产品描述中嘈杂和冗余的非视觉描述性文本属性。为了解决这个问题,我们引入了多模协议指导的学习令牌修剪(MM-LTP)方法。MM-LTP采用令牌修剪,传统上用于计算效率,在多模态模型训练期间执行在线文本清洗。通过使模型能够识别和丢弃不重要的标记,它能够使用隐式清理的图像-文本对进行训练。我们使用包括超过710,000种独特的亚马逊产品的基准多式联运电子商务数据集来评估MM-LTP。我们的评估取决于视觉搜索,这是一种流行的电子商务功能。通过MM-LTP,我们证明了细化文本标记增强了配对图像分支的训练,从而显著提高了视觉搜索性能。
1.引言
多模态Transformer模型已被广泛用于电子商务产品搜索,包括但不限于标题到图像搜索、图像到图像搜索和多模态到图像搜索[4,26,34,44,45]。多模态模型在电子商务产品搜索中的成功应用可以归因于其在理解产品内容的视觉和语言表示方面的优势。训练有效的视觉语言多模态模型的关键因素之一依赖于数据集中图像-文本对的对齐。在实践中,训练数据集通常是以自动方式收集的,只有有限的手动清理或注释。因此,文本和图像之间的对齐远非理想。

图1.来自电子商务网站的产品图像-文本对示例。产品标题中的短语通过其与图像嵌入的嵌入相似性来进行颜色编码。图像和文本嵌入都由BLIP-2 [20]模型生成。
这种未对齐问题是双向的:可能是配对图像没有反映所有文本内容,或者对应的文本没有完全描述图像内容。在电子商务应用中,前一个问题是常见的[8,23],对开发有效的多模态模型提出了特别严重的挑战。为了宣传他们的商品,卖家倾向于在产品标题中包括与产品属性一样多的属性。但是,其中一些属性是功能性的,而不是可视的。因此,标题中的这些属性短语不能被反映在配对图像中。图1显示了一个产品的图像-文本对示例。产品标题中有20多个短语。但是,大多数都不是直观的描述性图片–您如何判断它是“不含BPA(双酚A)”?通过查看图片来判断吗?我们通过计算短语的嵌入与图像嵌入的余弦相似度来进一步量化短语之间的内部差异,并在图1中示出了结果。很明显,非视觉描述性短语与图像具有显著较低的相似性。另一方面,关于电子商务多模式模型的现有工作主要是以蛮力方式将图像与完整标题对齐[24,26,44]。因此,这些模型易于出现非最佳的图像-文本对齐,并可能过度拟合噪声文本,最终影响模型的泛化性能[18]。为了应对噪声图像-文本对的挑战,一些多模态研究工作提出改进训练数据的规模和模型大小[2,13,30,39]或采用特定的模型设计,例如,BLIP模型[19]和BLIP-2模型[20]中的过滤器模块和捕获器模块。然而,对于电子商务应用程序,可用数据受到产品类别规模的限制,因此其数量无法与开放域数据相比。此外,具有特定设计的模型通常具有复杂的架构,这使得训练和推理不稳定[19]。
在本文中,我们介绍了多模态的文档引导的学习令牌修剪(MM-LTP),一个简单而有效的方法来训练多模态Transformer模型与嘈杂的电子商务图像-文本训练数据。该方法利用令牌修剪技术,该技术通常用于通过丢弃不重要的令牌来提高模型的计算效率[15,31],以在多模态模型训练期间执行在线文本清理。其关键思想是,考虑到每个短语在描述图像时具有不同的重要性,我们可以让模型学习在其原始多模态训练任务的同时删除不重要的标记。因此,可以使用隐式清理的图像-文本对来训练该模型。我们的方法还采用了一个可微的软二值化掩码,这使得模型能够学习关于给定层和任务时哪些标记被修剪的决策。掩模的学习由多模态对准来引导。我们将MM-LTP设计为能够灵活地与具有对准损耗的双模模型(例如,CLIP [30])和具有多模混合网络的多模模型(例如,ALBEF[18]。)此外,该方法可灵活地用于:(1)利用电子商务数据集对在开放域数据集上预训练的模型进行微调,以及(2)在面向电子商务的数据集上以非修剪方式对先前已经微调过的模型进行重新微调。
鉴于公开可用的电子商务数据集的稀缺性,为了评估我们的MM-LTP方法,我们基于单模态Amazon ESCI数据集[32]建立了一个基准多模态电子商务数据集,其中包含在Amazon.com上销售的超过710,000种独特产品。与之前的工作[17]所采用的方法类似,我们的工作还利用了多模态学习的优势,同时专注于视觉编码器进行评估。这是因为在电子商务中,客户主要使用图像作为视觉线索来搜索产品,而不是执行图像到文本或文本到图像的产品搜索[3,35,37,41,43]。通过只保留最突出的文本标记,我们的方法确保了清晰、简洁的语言线索在训练过程中指导图像分支。关注紧密耦合的文本概念可以提高图像模型识别和响应视觉模式的能力。我们的文本修剪利用这种跨模态正则化效应来提高图像编码器的视觉搜索的准确性和效率。通过使用ALBEF [18]类和CLIP [30]类实验的广泛实验,我们证明了所提出的MM-LTP方法的有效性。与没有MM-LTP方法训练的模型相比,MM-LTP可以将模型的Recall@1提高超过5个百分点。我们的主要贡献可以概括为:(1)我们提出了多模态标记引导的学习令牌修剪(MM-LTP)方法,该方法在训练多模态Transformer模型时使用令牌修剪来增强动态文本清理。它解决了电子商务数据集上的不对齐挑战。(2)所提出的多模态软令牌修剪方法可以灵活地与自注意和交叉注意机制集成,并且适用于具有显式或隐式多模态融合的模型。
2.相关工作
视觉语言预训练 在自然语言处理领域大规模基于transformer的预训练的成功[7]推动了视觉语言预训练的研究工作。这些模型在大规模图像-文本对上进行训练,并为各种下游任务学习联合视觉语言嵌入空间。CLIP模型[30]利用来自文本的更广泛的监督源来训练预测模型,该模型将文本与图像对齐,从而产生与特定任务监督模型相当的任务不可知模型。ALIGN [13]使用噪声数据集扩展CLIP模型,无需昂贵的过滤或后处理步骤,覆盖超过10亿个图像替代文本对。CLIP和ALIGN在基于视觉的下游任务中表现出良好的效果,然而,它们忽略了两种模态之间的相互作用和视觉语言下游任务。最近的研究提出在预训练期间学习图像内容和自然语言的联合嵌入,如OSCAR [22],UNIMO [21]和UNITER [6]。这些工作首先使用对象检测器主干来捕获视觉特征,然后将基于transformer的模型应用于级联的视觉和文本特征以学习联合嵌入。ViLT [16]进一步突破了卷积网络的区域特征,采用视觉Transformer [9]将整个全局图像特征与自然语言融合。ALBEF [18]和TCL [38]进一步利用对比损失函数在建模其联合嵌入之前对齐图像和文本特征,增加两种模态之间的交互并实现最先进的性能(SOTA)。
电子商务的多模态模型 FashionBERT [10]和Kaleido-BERT [46]等最初的作品使用了基于transformer的模型沿着自定义掩码策略进行预训练,旨在为服装检索生成更详细的特征。在此之后,CAPTURE [42]引入了一种通过掩蔽多模态学习和跨模态对比预训练生成独特实例特征的方法,这使得实例级产品检索任务的性能令人印象深刻。K3M [45]更进一步,将知识模态纳入多模态预训练中,以减轻图像和文本模态中的噪声并补充缺失的信息。SCALE [8]提出了一个自我协调的对比学习框架,能够将六种不同的模式整合到一个模型中。最近,CommerceMM [40]使用了一种基于对比和MLM的预训练,可以应用于14种不同的任务。
3.方法
简而言之,我们的方法通过每个标记来自注意力得分矩阵的重要性掩码文本标记。MM-LTP的概述如图2所示。
3.1.token重要性量化
文本修剪的第一步是量化每个文本标记相对于图像数据的重要性。我们将重点讨论两种最常见的融合方法的重要性。第一种是带有交叉注意的显式融合,其中标记的重要性直接反映在文本和图像块之间的成对注意分数上。在本文中,我们参考了ALBEF模型中的交叉注意范式[18]。第二种是隐式融合,如CLIP [30]中所述,其使用两个模态的表示之间的对比损失。尽管在这种情况下文本标记并不明确关注图像块,但我们假设分析文本编码器内的自关注模式类似地揭示了细粒度文本依赖性和在视觉内容中扎根的重要性。在交叉注意和自注意中的注意分数矩阵提供了在多模态对准期间如何对各个标记加权的模型不可知的见解,其适用于跨架构。因此,我们建议使用注意力得分矩阵作为量化文本标记重要性的指导。
给定具有
m
m
m个标记的输入查询序列
x
∈
R
m
×
n
\mathbf{x}\in\mathbb{R}^{m\times n}
x∈Rm×n,以及具有
k
k
k个标记的输入键序列
z
∈
R
k
×
l
z\in\mathbb{R}^{k\times l}
z∈Rk×l,注意力得分矩阵计算为:

其中
W
q
∈
R
n
×
d
\mathbf{W}_{q}\ \in\ \mathbb{R}^{n}{\times}d
Wq ∈ Rn×d和
W
k
∈
R
l
×
d
\mathbf{W}_{k}\ \in\ \mathbb{R}^{l}\times d
Wk ∈ Rl×d是可训练的权重矩阵。对于自我注意,我们有
m
=
k
m = k
m=k 和
n
=
l
n = l
n=l。这个注意力得分矩阵测量每个输入查询标记对每个关键标记的成对重要性。考虑到交叉注意的关键标记来自图像,为了使MM-LTP灵活,我们专注于量化查询标记的平均重要性以指导进一步的标记修剪。因此,在[11,14,15]之后,我们可以将多头注意力中第i个查询标记(
x
i
\mathbf{x}_i
xi)的重要性得分定义为:

其中
H
H
H是多头注意中独立参数化的头的数量。第
i
i
i个查询标记的重要性得分可以被解释为来自所有头部的所有关键标记的注意力的平均值。然而,并非所有密钥令牌都一定为确定查询令牌的重要性提供同等有价值的信息。在所有键上均匀平均可能会稀释有用信号。因此,我们建议根据Key token中的[CLS] token收到的关注度来计算重要性分数。在交叉注意中,图像[CLS]标记编码聚合的视觉概念。在自我注意中,语篇[CLS]代表语言语境。注意这些合并的表示提供了比单个键更少噪声的查询相关性度量。具体地,第
i
i
i个查询令牌的重要性分数被计算为来自所有头部的
K
e
y
[
C
L
S
]
Key [CLS]
Key[CLS]令牌的注意力的平均值。假设[CLS]标记位于序列的第一(第0)位置,则多头注意中的第
i
i
i个查询标记(
x
i
x_i
xi)的更新后的重要性分数可以定义为:

通过这种改进的重要性度量,MM-LTP将不同的键集压缩为紧凑的统一表示,从而实现查询令牌重要性的鲁棒量化。
3.2.学习阈值剪枝
给定每个查询令牌的重要性,MM-LTP通过将得分与阈值
τ
τ
τ进行比较来修剪不重要的令牌。该过程允许模型丢弃对多模态对齐和融合贡献较小的噪声标记。然而,设置
τ
τ
τ的值是一项重要的任务。适当的阈值在任务和数据集之间可能不同。阈值也可以在Transformer层之间变化,因为较深的层捕获更高级别的概念,其中较少的令牌可能是相关的。因此,手动设置静态启发式阈值是不切实际的。因此,我们将
τ
τ
τ建模为一个可学习的参数,使其能够适应每个任务、数据和层的特定要求。
组合学习两个分量的
τ
τ
τ,即可微修剪掩码和令牌修剪损失。在反向传播期间,可微分修剪掩码用可学习的
τ
τ
τ近似不可微分的二进制掩码。受Tempered Sigmoid Activations [28]的启发,对于模型中的第
l
l
l层,第
i
i
i个查询标记(
x
i
x_i
xi)的可微修剪掩码定义为:

其中
T
T
T是温度参数。当
T
T
T足够小时,重要性得分大于
τ
τ
τ的令牌的输出将接近1,反之亦然。然后将mask
M
l
(
x
i
)
M_l(x_i)
Ml(xi)与第
i
i
i个查询令牌在层
l
l
l处的输出相乘。对于重要性分数小于阈值的标记,它们的层输出接近于零,因此它们不会成为后续层中的主要信息源,这具有抑制这些标记的等效效果。分析上,当阈值足够接近重要性分数时,梯度
d
M
l
(
x
i
)
d
τ
l
\frac{d M_{l}({\bf x}_{i})}{d\tau_{l}}
dτldMl(xi)达到其最大幅度。这意味着阈值训练可以专门关注那些即将被修剪或保留的标记,而不是不加区别地关注所有标记[15]。
为了鼓励模型进行修剪,我们采用修剪损失作为额外的训练目标,这在以前的作品中很常见[15]。我们提出了一种基于 L1 损失的方法:

其中
d
l
Q
d^Q_l
dlQ是层
l
l
l处的查询的序列长度。缩放因子
d
l
Q
d^Q_l
dlQ是针对具有动态查询长度的模型而设计的,这有助于将掩码的L1范数归一化为统一尺度。直观地,当更多的令牌位于阈值附近时,梯度
L
P
r
u
n
e
d
τ
l
\frac{\mathcal{L}\,{_{P r u n e}}}{d\tau_{l}}
dτlLPrune变得更大。因此,这导致阈值的增加,导致修剪更大数量的接近阈值边界的令牌。通常,对于具有原始训练目标
L
M
o
d
e
l
\mathcal{L}_{Model}
LModel的模型,更新后的训练目标为:

其中
λ
λ
λ是用于控制修剪积极性的正则化参数。

图2.MM-LTP方法概述。如果模型具有融合网络层,则可以灵活地使用文本编码器中的自注意矩阵或交叉注意矩阵。它采用注意力得分矩阵来计算每个查询文本标记的重要性得分。在可学习的阈值化机制之后,屏蔽不重要的记号。
4.实验
4.1.数据集
一个由通用电子商务产品类型的图像-文本对组成的数据集是必要的,用于评估所提出的MM-LTP方法。然而,在以前的作品中使用的数据集很难满足这一要求。例如,Fashion-Gen数据[46],Fashion 200 k数据[12],Shopping 100数据[1]和FashionIQ数据[36]都专注于时尚领域。M5产品数据[8]和产品1 M数据[42]采用中文产品标题的形式,因为中文的独特特征及其对拟议MM-LTP的标记化影响不在本工作范围内。此外,还有一些相关的工作是从在线市场收集数据,而不发布数据集[3,35,37,40,41,43]。因此,我们建立了一个基准的多模态电子商务领域的英文字幕。该数据集基于Amazon ECSI数据集[32]构建,Amazon ECSI数据集是用于产品购物查询的单模态数据集。在删除不再可用或图像少于两张的产品后,该数据集涵盖了亚马逊网站上销售的71万多件产品。每个产品的数据包含产品标题、主图像和多个(0到10个)辅助图像。该数据集的统计数据见表1。该数据集涵盖最常见的产品类别,包括但不限于硬线(例如,电子产品、家具等),软线(服装、鞋等),消耗品(个人护理、食品储藏室等),产品类别分布见表2。

表1.数据集统计信息。训练集中的对表示图像-文本对,而测试集中的对表示主图像和一个辅助图像的对。

表2.数据集的产品类别分布。

图3.实验说明和命名规则。MM-LTP的设计非常灵活,既可以对使用开放域数据集预先训练的模型进行微调,也可以对电子商务域模型进行微调。
4.2.实验设置
通过选择性地修剪令牌来实现通用模型。在第二阶段,我们使用的模型微调在一个共同的,非修剪时尚的目标域作为出发点,以评估MM-LTP的能力,进一步改善微调的电子商务模型。这个阶段说明了MMLTP的适应性和有效性在一个专门的领域,在视觉和文本信息之间的精确对齐是至关重要的。对于这两个阶段,我们使用没有标记修剪的模型建立基线,以确保公平和全面的比较。此外,我们还包括一个消融研究,以探讨修剪层的影响,考虑配备了自我注意和交叉注意的模型。在本文中,我们选择CLIP [30]和ALBEF [18]作为上述所有评估的示例多模式模型。对于ALBEF,默认修剪层是具有交叉关注的融合编码器。我们还评估了在默认设置的基础上将修剪应用于融合编码器和文本编码器的自注意的性能。
4.3.实施细节和指标
所有实验都使用8个NVIDIA A100 GPU进行,利用PyTorch深度学习框架[29]和Ray分布式计算框架[27]。CLIP和ALBEF模型都采用标准的ViT-B/16 [9]视觉编码器,具有12层和86 M参数。CLIP的文本编码器是一个12层的Transformer,有63 M个参数,而ALBEF的文本和融合编码器构建在6层的Transformer上,总共有124 M个参数。这两个模型都使用作者提供的预先训练的权重。对于CLIP模型,使用AdamW优化器[25]进行训练超过100个epoch,批量大小为1360,权重衰减为0.02。学习速率初始化为
5
e
−
6
5e^{−6}
5e−6,在10个epoch后预热到
2
e
−
5
2e^{−5}
2e−5,然后使用余弦衰减策略降低到
5
e
−
6
5e^{−6}
5e−6。对于ALBEF,原始工作的预训练配置用于第一阶段的微调实验,检索训练配置用于第二阶段的微调实验。批量从原始配置调整为320。在令牌修剪中,逐层阈值以线性上升的值初始化,在最后一层以0.01的固定阈值结束。温度参数T设定为
1
e
−
4
1e^{−4}
1e−4。从经验探索中,发现修剪损失的正则化参数
λ
λ
λ为0.1适合于所有实验。
我们采用标准的检索评价指标,即,Recall@K(表示为R@K),定义为在前K个检索样本中成功识别正确目标的测试查询的比例[5]。除另有规定外,检索性能表中的单位均为百分比(%)。

表3.CLIP模型在不同第一阶段微调设定下的撷取效能。最好的结果是粗体。↑表示MM-LTP的相对改善。请注意,CLIP-FT 1模型也实现了显著的改进,这突出了现有模型的预训练数据与我们的电子商务数据集之间的领域差异。↑表示通过电子商务数据集进一步微调的模型的改进。(除非特别说明,否则这适用于所有表格结果)。
4.4.第一阶段检索性能
第一阶段检索的主要目标是评估MM-LTP在改进对开放域数据进行预训练的模型的微调方面的能力,特别是针对电子商务产品检索。当与MM-LTP整合时,CLIP和ALBEF的结果分别见表3和表4。这些结果表明,MM-LTP有效地提高了检索性能的不同融合策略的模型。
CLIP如表3所示,与基线CLIP相比,CLIP-FT 1和CLIPFT 1 wTP都提高了10个百分点以上。这一显著的增强强调了CLIP原始预训练数据与我们专门的电子商务数据集之间的领域差异。值得注意的是,CLIP-FT 1 wTP在所有指标上都比CLIP-FT 1高出1.6个百分点。这样的性能提升表明,MM-LTP特别擅长改进依赖于基于自我注意的文本编码器的模型。考虑到CLIP等模型仅利用自我注意力并由对比损失指导,MM-LTP从产品标题中删除冗余和噪声标记的能力尤其可取。修剪不仅减少了文本编码器中的噪声,还为视觉中枢提供了更清晰、更集中的文本提示。当视觉模型用这些细化的文本线索训练时,它可以在视觉和文本特征之间形成更好的关联。这两种模式之间的改进对齐确保了视觉骨干可以基于去噪的文本信息更准确地识别和检索相关产品。从本质上讲,通过增强文本表示,MM-LTP间接增强了视觉中枢,从而提高了电子商务环境中的检索性能。
ALBEF表4显示了ALBEF模型在各种配置下的检索性能。实验结果表明,MM-LTP与交叉注意的整合可以使检索性能提高3个百分点以上。值得注意的是,当修剪扩展到自我注意力和交叉注意力时,有超过5个百分点的提升。这种增益超过了CLIP模型中观察到的改善。这样的结果表明,MM-LTP更善于修剪嘈杂的文本标记时,有一个明确的多模态交互,如交叉注意,相比一个隐含的。

表4.ALBEF模型在不同第一阶段微调设置下的反演性能。↑表示MM-LTP的最高相对改善。
此外,ALBEF中多个优化目标的复杂设计补充了MM-LTP的功能。ALBEF的文本编码器中的对比对齐丢失和自我注意机制与CLIP中的相似。它们有效地作为显式多模态融合的预处理步骤。当多模态融合发生时,被认为是噪声和冗余的文本标记已经经历了软修剪。这确保了视觉嵌入与剩余的信息文本标记更加协调,从而提高了它们的对齐和检索准确性。MM-LTP和ALBEF的设计之间的这种协同作用对于训练鲁棒的视觉编码器特别有益。改进的对齐对于图像到图像检索任务至关重要。在这样的任务中,模型严重依赖视觉编码器来提取和比较视觉特征,并且从去噪文本信息训练的视觉编码器具有更好的识别细微视觉模式和细微差别的能力。
CLIP和ALBEF的评估证明了MM-LTP在第一阶段微调中的有效性,特别是对于使用开放域数据进行预训练以适应电子商务应用的模型。
4.5.第二阶段检索性能
表5和表6给出了两个模型的第二阶段微调结果,模拟了MM-LTP在电子商务模型微调中的应用。对于CLIP,MM-LTP的整合导致检索性能提高了2.3个百分点。在ALBEF的情况下,MM-LTP有助于在所有指标中提高约5个百分点。
这些结果显示了MM-LTP在改进电子商务模型以提高性能方面的潜力。与基线模型CLIP-FT 2相比,CLIP-FT 2 wTP模型在没有令牌修剪的情况下进行了微调,其性能优于它大约一个百分点。同样,ALBEF的第二阶段微调模型ALBEF-FT 2 wTP-All的表现最好,超过基线ALBEF-FT 2约3个百分点。这些改进的轨迹反映了第一阶段微调期间观察到的趋势。
深入研究两个阶段之间的比较增益,很明显,MM-LTP在第一阶段实现了更显着的改善。对这一观察结果的一个合理解释是,在第一阶段,模型更具延展性,允许MM-LTP更有效地修剪和细化文本线索。

表5.CLIP模型在不同阶段采用不同微调设置的检索性能。↑表示MM-LTP在第二阶段微调中的改善。

表6.ALBEF模型在不同阶段采用不同微调设置的检索性能。↑表示在第二阶段微调中,MM-LTP的改善最高。

表7.CLIP模型在第一阶段微调中不同重要性分数计算设置下的检索性能。

表8.第二阶段微调中不同重要性分数计算设定的CLIP模型的检索性能。

表9.第一阶段微调中不同重要性分数计算设置下的ALBEF模型检索性能。
4.6.消融研究
为了分析使用Key的[CLS]令牌和Query的非[CLS]令牌计算重要性分数的有效性,我们进行了一项消融研究,其中具有用于重要性分数计算的不同设置:设置1:计算涉及所有Key令牌和所有Query令牌。设置2:计算使用Key的[CLS]令牌和所有Query令牌。设置3:计算包含所有Key令牌和Query的非[CLS]令牌。
这些配置下CLIP和ALBEF模型的检索结果详见表7、表8和表9。这些结果的综合分析表明,采用我们提出的计算方法的模型始终产生最高的检索性能,无论微调阶段和令牌修剪层。在这三种配置中,设置3具有最接近MM-LTP的性能。对于CLIP模型,设置1的性能略优于设置2。然而,对于ALBEF,设置1落后于设置2一个狭窄的边缘。
这些发现证实了利用Key的[CLS]令牌中存在的聚合信息的价值。这种方法作为一个额外的去噪步骤,细化的重要性分数。特别是对于像ALBEF这样的模型,它采用文本(查询)和图像(关键字)之间的交叉注意,潜在的冗余和噪声存在于这两种方式。通过强调[CLS]令牌的整合信息,我们减轻了这些挑战,确保文本和图像表示之间更准确的对齐。此外,通过专注于更清晰和更简洁的文本提示,视觉编码器被训练成更有效地识别和优先考虑显著的视觉特征。

图4.在ALBEF-FT 1 wTP模型的交叉注意力图上的Grad-CAM可视化,对应于产品标题中的单个单词。
4.7.Grad-CAM可视化
在图4中,我们提供了与产品标题中的每个单词相对应的ALBEF-FT 1 wTP模型的交叉注意力图的Grad-CAM [33]可视化。在ALBEF论文中的实现之后,我们选择多模态融合编码器的第三层进行可视化。
注意力地图揭示了不同的焦点模式。视觉上描述性的词,如“阀”、“狗”和“手柄”,表现出集中的注意力区域。这表明该模型强调了图像中与这些描述性术语相对应的区域。相比之下,品牌名称或在图像中缺乏直接视觉对应物的单词,如“zurn”,“ichoue”和“estwing”,显示出分散和分散的注意力模式。
注意力分布的差异证明了模型区分文本标记的能力。该模型似乎减少了对潜在噪声或相关性较低的文本标记的关注,而专注于提供有意义的视觉提示的标记。这种行为符合我们的基本假设和动机:优先考虑信息文本标记,减少无关文本标记的影响。这种选择性注意机制不仅突出了模型区分视觉接地和非接地文本信息的能力,而且还为我们的令牌修剪方法提供了理论基础。
5.讨论
MM-LTP方法的有效性已经通过我们的评估得到了验证.为确保MM-LTP的鲁棒性和广泛适用性,未来的研究将侧重于评估MM-LTP在一系列真实场景中的适应性和效率,包括具有不同水平的图文错位、不同大小以及视觉和非视觉属性之间的不同平衡的数据集。
探索MM-LTP在不同骨干模型大小和专业产品类别上的性能对于揭示其局限性和潜力也至关重要。通过进行这些调查并评估其对各种电子商务平台的适用性,我们的目标是建立MM-LTP作为一个强大的和通用的解决方案,以改善电子商务产品搜索体验。
6.结论
在本文中,我们解决了电子商务数据集中的噪声imagetext对对齐的挑战,并提出了MM-LTP方法作为解决方案。利用令牌修剪,MM-LTP有助于训练具有更清晰图像-文本配对的多模式Transformer模型。通过修剪冗余和噪声文本标记,MM-LTP去噪的文本分支,并加强视觉编码器,导致一个更有效的电子商务应用程序的多模态模型。我们对大规模电子商务数据集的评估表明,MM-LTP在提高视觉搜索性能方面是有效的。此外,所提出的方法是灵活的,并与依赖于对齐损失的CLIP和融合网络的ALBEF等模型兼容。
126

被折叠的 条评论
为什么被折叠?



