Text-to-Image Person ReID 论文目录
- Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID
文章目录
摘要
为了提高ReID模型的泛化能力,研究了可转移的文本到图像的ReID问题,通过多模态大语言模型(MLLM)获得了大量的训练数据。
确定并解决了在利用所获得的文本描述中的两个关键挑战。
- **MLLM倾向于生成具有相似结构的描述,从而导致模型过度拟合特定的句型。**因此,提出了一种新的方法,使用MLLM的字幕图像根据不同的模板。这些模板是使用具有大语言模型(LLM)的多回合对话来获得的。因此,建立了一个大规模的数据集,具有不同的文本描述。
- **MLLM可能产生不正确的描述。**介绍了一种新的方法,该方法自动识别描述中与图像不对应的词。该方法基于图像中一个文本与所有块标记嵌入之间的相似性。然后,在随后的训练中以更大的概率屏蔽这些词,从而减轻噪声文本描述的影响。
一、引言
注释行人图像的文本描述是耗时的,因此,现有的文本到图像人ReID的数据集通常很小 —>跨数据集泛化能力非常低。因此,研究了可转移的文本到图像的ReID问题。利用大规模 LUPerson数据集作为图像源,并使用MLLM生成文本描述。所获得的图像-文本对用于训练在现有的Text-to-Image ReID数据集中直接评估的模型。
为了提高模型的迁移能力,必须解决两个基本挑战:
- 引导MLLM为单个图像生成不同的文本描述
MLLM倾向于生成具有相似句子结构的描述,导致模型过度拟合特定的句子模式。本文提出基于模板的多样性增强方法,该方法指示MLLM根据给定的描述模板来进行图像描述生成。使用ChatGPT执行多轮对话,并提示它生成不同的模板。然后,将这些模板中的一个随机地集成到MLLM的字幕指令中,从而产生具有多种句子结构的生动描述。 - 减少合成文本描述中的噪声的影响。
生成的文本描述中的某些单词可能与配对图像不匹配。提出了一种新的噪声感知掩蔽(NAM)方法。计算每个文本token和配对图像中的所有图像token之间的相似性,以获得特定的文本描述。不匹配的单词和图像token之间的相似性分数通常很低。因此,我们识别出潜在的不正确的单词,并在下一个训练时期以很大的概率将它们屏蔽,然后再将它们输入文本编码器。
(注:NAM和掩蔽语言建模(MLM)是相似的,但有两个关键的区别:(1)MLM以相等的概率掩蔽所有token,而NAM基于它们的噪声水平掩蔽它们。(2)MLM应用交叉熵损失预测掩码token,而NAM专注于mask单词,而不预测潜在的噪声单词。)
二、方法
1.生成多样的文本描述
1.1 指令设计
采用LUPerson数据库作为图像源,因为它保存了大量在不同环境中捕获的图像。
MLLM的一个技术方面在于设计有效的指令,使用ChatGPT的多回合对话来解决这个问题:
“Write a description about the overall appearance of the person in the image, including the attributes: clothing, shoes, hairstyle, gender and belongings. If any attribute is not visible, you can ignore it. Do not imagine any contents that are not in the image.”
这是一个静态指令,因为它对所有图像都是固定的。在本文中,使用静态指令生成的文本描述被表示为static texts或
T
s
{T^s}
Ts。
图1. 基于模板的多样性增强(TDE)方法显著增强了描述模式的多样性
1.2 多样性增强
对于1.1的改进,获得的句型仍然有限。虽然使用更多的MLLM可以带来多种句型,但这些句型仍然远远不够多样化。
提出了一种基于模板的分集增强(Template-based Diversity Enhancement, TDE)方法。首先,根据静态指令,使用两个MLLM为一组图像中的每一个生成两个描述。然后,将这些描述输入ChatGPT,以捕获其句型(即,描述模板)。在这些模板的指导下,会指示ChatGPT创建更多模板。最后,它在多轮对话后产生了46个模板。随机选择其中一个模板并插入静态指令中,从而获得动态指令:
“Generate a description about the overall appearance of the person, including clothing, shoes, hairstyle, gender, and belongings, in a style similar to the template: ‘{template}’. If some requirements in the template are not visible, you can ignore them. Do not imagine any contents that are not in the image.”
"{template}“是可替换的。此外,根据动态指令生成的文本描述被称为dynamic texts ( T d {T^d} Td)。如图1所示,MLLM可以遵循模板中指定的句型,从而显著增强所获得的文本描述的多样性。
1.3 数据集说明
- MLLM: 使用了公开可用的Qwen和Shikra模型
- 获得了大规模LUPerson-MLLM数据集:包括100万个图像,并且每个图像具有四个描述, T q w e n s {T_{qwen}}^s Tqwens、 T s h i k r a s {T_{shikra}}^s Tshikras、 T q w e n d {T_{qwen}}^d Tqwend和 T s h i k r a d {T_{shikra}}^d Tshikrad。前两个和后两个分别根据静态和动态指令生成。(每个图像保留了 T s T^s Ts,因为观察到它的描述通常与 T d T^d Td的描述互补。(将所有MLLM生成的描述称为 T f u l l T^{full} Tfull。)
2.噪声感知掩蔽
MLLM生成的文本描述会有几个词与所描述的图像不匹配。现有的方法通常会丢弃噪声描述,丢失匹配词中包含的其他有价值的信息。因此,提出了一种新的噪声感知掩蔽(NAM)方法,该方法识别噪声文本标记,并充分利用匹配的文本标记进行模型训练。
图2. 框架概述
2.1 图像编码器(image encoder)
将图像划分为M个不重叠的patch。这些图像token与[CLS] token连接,并馈入图像编码器。然后,在最后一个图像编码器层嵌入的[CLS] token被用作全局图像特征,表示为 v c l s v_{cls} vcls ∈ R d R^d Rd。d(dimension)
2.2 文本编码器
文本描述—>N个token的序列。[SOS]—>[EOS]
2.3 噪声感知掩蔽
图像和文本编码器的 token embeddings,
F
v
=
[
v
1
,
v
2
,
.
.
.
,
v
M
]
F_v=[v_1, v_2, ..., v_M]
Fv=[v1,v2,...,vM],
F
t
T
=
[
t
1
,
t
2
,
.
.
.
,
t
N
]
F_t^T=[t_1, t_2, ..., t_N]
FtT=[t1,t2,...,tN]
如果一个文本标记与图像不匹配,则该标记的嵌入与所有图像标记之间的相似性得分将始终很低。因此,
T
f
u
l
l
T^{full}
Tfull中第i个文本标记的噪声水平计算如下:
在初始训练阶段,r中的元素值可能很高。这将导致对重要符号的过度屏蔽,并阻碍学习。因此将所有r个元素的期望值修改为一个常数:
P是平均掩蔽比。**r '**值作为文本标记可能被屏蔽的最终概率。
2.4 损失
相似分布匹配(similarity distribution matching, SDM)损失
余弦相似度
最终损失: