【文本-图像重识别论文】Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID

最新推荐文章于 2024-11-11 21:30:41 发布

1.17

最新推荐文章于 2024-11-11 21:30:41 发布

阅读量1.1k

点赞数 10

分类专栏：文本-图像重识别论文文章标签：人工智能

本文链接：https://blog.csdn.net/luffy808/article/details/140807948

版权

文本-图像重识别论文专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Text-to-Image Person ReID 论文目录

Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID

摘要

为了提高ReID模型的泛化能力，研究了可转移的文本到图像的ReID问题，通过多模态大语言模型（MLLM）获得了大量的训练数据。
确定并解决了在利用所获得的文本描述中的两个关键挑战。

**MLLM倾向于生成具有相似结构的描述，从而导致模型过度拟合特定的句型。**因此，提出了一种新的方法，使用MLLM的字幕图像根据不同的模板。这些模板是使用具有大语言模型（LLM）的多回合对话来获得的。因此，建立了一个大规模的数据集，具有不同的文本描述。
**MLLM可能产生不正确的描述。**介绍了一种新的方法，该方法自动识别描述中与图像不对应的词。该方法基于图像中一个文本与所有块标记嵌入之间的相似性。然后，在随后的训练中以更大的概率屏蔽这些词，从而减轻噪声文本描述的影响。

一、引言

注释行人图像的文本描述是耗时的，因此，现有的文本到图像人ReID的数据集通常很小 —>跨数据集泛化能力非常低。因此，研究了可转移的文本到图像的ReID问题。利用大规模 LUPerson数据集作为图像源，并使用MLLM生成文本描述。所获得的图像-文本对用于训练在现有的Text-to-Image ReID数据集中直接评估的模型。
为了提高模型的迁移能力，必须解决两个基本挑战：

引导MLLM为单个图像生成不同的文本描述
MLLM倾向于生成具有相似句子结构的描述，导致模型过度拟合特定的句子模式。本文提出基于模板的多样性增强方法，该方法指示MLLM根据给定的描述模板来进行图像描述生成。使用ChatGPT执行多轮对话，并提示它生成不同的模板。然后，将这些模板中的一个随机地集成到MLLM的字幕指令中，从而产生具有多种句子结构的生动描述。
减少合成文本描述中的噪声的影响。
生成的文本描述中的某些单词可能与配对图像不匹配。提出了一种新的噪声感知掩蔽（NAM）方法。计算每个文本token和配对图像中的所有图像token之间的相似性，以获得特定的文本描述。不匹配的单词和图像token之间的相似性分数通常很低。因此，我们识别出潜在的不正确的单词，并在下一个训练时期以很大的概率将它们屏蔽，然后再将它们输入文本编码器。
（注：NAM和掩蔽语言建模（MLM）是相似的，但有两个关键的区别：（1）MLM以相等的概率掩蔽所有token，而NAM基于它们的噪声水平掩蔽它们。(2)MLM应用交叉熵损失预测掩码token，而NAM专注于mask单词，而不预测潜在的噪声单词。）

二、方法

1.生成多样的文本描述

1.1 指令设计

采用LUPerson数据库作为图像源，因为它保存了大量在不同环境中捕获的图像。
MLLM的一个技术方面在于设计有效的指令，使用ChatGPT的多回合对话来解决这个问题：

“Write a description about the overall appearance of the person in the image, including the attributes: clothing, shoes, hairstyle, gender and belongings. If any attribute is not visible, you can ignore it. Do not imagine any contents that are not in the image.”

这是一个静态指令，因为它对所有图像都是固定的。在本文中，使用静态指令生成的文本描述被表示为static texts或 ${T^s}$ 。

图1. 基于模板的多样性增强（TDE）方法显著增强了描述模式的多样性

1.2 多样性增强

对于1.1的改进，获得的句型仍然有限。虽然使用更多的MLLM可以带来多种句型，但这些句型仍然远远不够多样化。
提出了一种基于模板的分集增强（Template-based Diversity Enhancement, TDE）方法。首先，根据静态指令，使用两个MLLM为一组图像中的每一个生成两个描述。然后，将这些描述输入ChatGPT，以捕获其句型（即，描述模板）。在这些模板的指导下，会指示ChatGPT创建更多模板。最后，它在多轮对话后产生了46个模板。随机选择其中一个模板并插入静态指令中，从而获得动态指令：

“Generate a description about the overall appearance of the person, including clothing, shoes, hairstyle, gender, and belongings, in a style similar to the template: ‘{template}’. If some requirements in the template are not visible, you can ignore them. Do not imagine any contents that are not in the image.”

"{template}“是可替换的。此外，根据动态指令生成的文本描述被称为dynamic texts ( ${T^d}$ )。如图1所示，MLLM可以遵循模板中指定的句型，从而显著增强所获得的文本描述的多样性。

1.3 数据集说明

MLLM: 使用了公开可用的Qwen和Shikra模型
获得了大规模LUPerson-MLLM数据集：包括100万个图像，并且每个图像具有四个描述， ${T_{qwen}}^s$ 、 ${T_{shikra}}^s$ 、 ${T_{qwen}}^d$ 和 ${T_{shikra}}^d$ 。前两个和后两个分别根据静态和动态指令生成。（每个图像保留了 $T^s$ ，因为观察到它的描述通常与 $T^d$ 的描述互补。(将所有MLLM生成的描述称为 $T^{full}$ 。)

2.噪声感知掩蔽

MLLM生成的文本描述会有几个词与所描述的图像不匹配。现有的方法通常会丢弃噪声描述，丢失匹配词中包含的其他有价值的信息。因此，提出了一种新的噪声感知掩蔽（NAM）方法，该方法识别噪声文本标记，并充分利用匹配的文本标记进行模型训练。
在这里插入图片描述
图2. 框架概述

2.1 图像编码器（image encoder）

将图像划分为M个不重叠的patch。这些图像token与[CLS] token连接，并馈入图像编码器。然后，在最后一个图像编码器层嵌入的[CLS] token被用作全局图像特征，表示为 $v_{cls}$ ∈ $R^d$ 。d(dimension)

2.2 文本编码器

文本描述—>N个token的序列。[SOS]—>[EOS]

2.3 噪声感知掩蔽

图像和文本编码器的 token embeddings， $F_v=[v_1, v_2, ..., v_M]$ , $F_t^T=[t_1, t_2, ..., t_N]$
在这里插入图片描述

如果一个文本标记与图像不匹配，则该标记的嵌入与所有图像标记之间的相似性得分将始终很低。因此， $T^{full}$ 中第i个文本标记的噪声水平计算如下:
在这里插入图片描述
在初始训练阶段，r中的元素值可能很高。这将导致对重要符号的过度屏蔽，并阻碍学习。因此将所有r个元素的期望值修改为一个常数：

P是平均掩蔽比。**r '**值作为文本标记可能被屏蔽的最终概率。