【文本-图像重识别论文】Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID

Text-to-Image Person ReID 论文目录

  1. Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID


摘要

为了提高ReID模型的泛化能力,研究了可转移的文本到图像的ReID问题,通过多模态大语言模型(MLLM)获得了大量的训练数据。
确定并解决了在利用所获得的文本描述中的两个关键挑战。

  1. **MLLM倾向于生成具有相似结构的描述,从而导致模型过度拟合特定的句型。**因此,提出了一种新的方法,使用MLLM的字幕图像根据不同的模板。这些模板是使用具有大语言模型(LLM)的多回合对话来获得的。因此,建立了一个大规模的数据集,具有不同的文本描述。
  2. **MLLM可能产生不正确的描述。**介绍了一种新的方法,该方法自动识别描述中与图像不对应的词。该方法基于图像中一个文本与所有块标记嵌入之间的相似性。然后,在随后的训练中以更大的概率屏蔽这些词,从而减轻噪声文本描述的影响。

一、引言

  注释行人图像的文本描述是耗时的,因此,现有的文本到图像人ReID的数据集通常很小 —>跨数据集泛化能力非常低。因此,研究了可转移的文本到图像的ReID问题。利用大规模 LUPerson数据集作为图像源,并使用MLLM生成文本描述。所获得的图像-文本对用于训练在现有的Text-to-Image ReID数据集中直接评估的模型。
为了提高模型的迁移能力,必须解决两个基本挑战:

  1. 引导MLLM为单个图像生成不同的文本描述
    MLLM倾向于生成具有相似句子结构的描述,导致模型过度拟合特定的句子模式。本文提出基于模板的多样性增强方法,该方法指示MLLM根据给定的描述模板来进行图像描述生成。使用ChatGPT执行多轮对话,并提示它生成不同的模板。然后,将这些模板中的一个随机地集成到MLLM的字幕指令中,从而产生具有多种句子结构的生动描述。
  2. 减少合成文本描述中的噪声的影响。
    生成的文本描述中的某些单词可能与配对图像不匹配。提出了一种新的噪声感知掩蔽(NAM)方法。计算每个文本token和配对图像中的所有图像token之间的相似性,以获得特定的文本描述。不匹配的单词和图像token之间的相似性分数通常很低。因此,我们识别出潜在的不正确的单词,并在下一个训练时期以很大的概率将它们屏蔽,然后再将它们输入文本编码器。
    :NAM和掩蔽语言建模(MLM)是相似的,但有两个关键的区别:(1)MLM以相等的概率掩蔽所有token,而NAM基于它们的噪声水平掩蔽它们。(2)MLM应用交叉熵损失预测掩码token,而NAM专注于mask单词,而不预测潜在的噪声单词。)

二、方法

1.生成多样的文本描述

1.1 指令设计

采用LUPerson数据库作为图像源,因为它保存了大量在不同环境中捕获的图像。
MLLM的一个技术方面在于设计有效的指令,使用ChatGPT的多回合对话来解决这个问题:

“Write a description about the overall appearance of the person in the image, including the attributes: clothing, shoes, hairstyle, gender and belongings. If any attribute is not visible, you can ignore it. Do not imagine any contents that are not in the image.”

这是一个静态指令,因为它对所有图像都是固定的。在本文中,使用静态指令生成的文本描述被表示为static texts或 T s {T^s} Ts
图1
图1. 基于模板的多样性增强(TDE)方法显著增强了描述模式的多样性

1.2 多样性增强

  对于1.1的改进,获得的句型仍然有限。虽然使用更多的MLLM可以带来多种句型,但这些句型仍然远远不够多样化。
  提出了一种基于模板的分集增强(Template-based Diversity Enhancement, TDE)方法。首先,根据静态指令,使用两个MLLM为一组图像中的每一个生成两个描述。然后,将这些描述输入ChatGPT,以捕获其句型(即,描述模板)。在这些模板的指导下,会指示ChatGPT创建更多模板。最后,它在多轮对话后产生了46个模板。随机选择其中一个模板并插入静态指令中,从而获得动态指令:

“Generate a description about the overall appearance of the person, including clothing, shoes, hairstyle, gender, and belongings, in a style similar to the template: ‘{template}’. If some requirements in the template are not visible, you can ignore them. Do not imagine any contents that are not in the image.”

"{template}“是可替换的。此外,根据动态指令生成的文本描述被称为dynamic texts ( T d {T^d} Td)。如图1所示,MLLM可以遵循模板中指定的句型,从而显著增强所获得的文本描述的多样性。

1.3 数据集说明

  • MLLM: 使用了公开可用的Qwen和Shikra模型
  • 获得了大规模LUPerson-MLLM数据集:包括100万个图像,并且每个图像具有四个描述, T q w e n s {T_{qwen}}^s Tqwens T s h i k r a s {T_{shikra}}^s Tshikras T q w e n d {T_{qwen}}^d Tqwend T s h i k r a d {T_{shikra}}^d Tshikrad。前两个和后两个分别根据静态和动态指令生成。(每个图像保留了 T s T^s Ts,因为观察到它的描述通常与 T d T^d Td的描述互补。(将所有MLLM生成的描述称为 T f u l l T^{full} Tfull。)

2.噪声感知掩蔽

MLLM生成的文本描述会有几个词与所描述的图像不匹配。现有的方法通常会丢弃噪声描述,丢失匹配词中包含的其他有价值的信息。因此,提出了一种新的噪声感知掩蔽(NAM)方法,该方法识别噪声文本标记,并充分利用匹配的文本标记进行模型训练。
在这里插入图片描述
图2. 框架概述

2.1 图像编码器(image encoder)

将图像划分为M个不重叠的patch。这些图像token与[CLS] token连接,并馈入图像编码器。然后,在最后一个图像编码器层嵌入的[CLS] token被用作全局图像特征,表示为 v c l s v_{cls} vcls R d R^d Rd。d(dimension)

2.2 文本编码器

文本描述—>N个token的序列。[SOS]—>[EOS]

2.3 噪声感知掩蔽

图像和文本编码器的 token embeddings, F v = [ v 1 , v 2 , . . . , v M ] F_v=[v_1, v_2, ..., v_M] Fv=[v1,v2,...,vM], F t T = [ t 1 , t 2 , . . . , t N ] F_t^T=[t_1, t_2, ..., t_N] FtT=[t1,t2,...,tN]
在这里插入图片描述

如果一个文本标记与图像不匹配,则该标记的嵌入与所有图像标记之间的相似性得分将始终很低。因此, T f u l l T^{full} Tfull中第i个文本标记的噪声水平计算如下:
在这里插入图片描述
在初始训练阶段,r中的元素值可能很高。这将导致对重要符号的过度屏蔽,并阻碍学习。因此将所有r个元素的期望值修改为一个常数:
在这里插入图片描述
P是平均掩蔽比。**r '**值作为文本标记可能被屏蔽的最终概率。

2.4 损失

相似分布匹配(similarity distribution matching, SDM)损失
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
余弦相似度
最终损失:
在这里插入图片描述


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值