【文本-图像重识别论文】Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID
为了提高ReID模型的泛化能力,研究了可转移的文本到图像的ReID问题,通过多模态大语言模型(MLLM)获得了大量的训练数据。确定并解决了在利用所获得的文本描述中的两个关键挑战。**MLLM倾向于生成具有相似结构的描述,从而导致模型过度拟合特定的句型。**MLLM可能产生不正确的描述。
原创
2024-07-31 17:05:16 ·
1062 阅读 ·
0 评论