#今日论文推荐#ICCV2021 | 你以为这是一个填色模型？其实我是检索模型

语言引导的人称搜索的关键是在视觉输入和文本输入之间建立跨模态关联。现有方法侧重于设计多模态注意机制和新的跨模态损失函数来隐式学习这种关联。作者提出了一种基于颜色推理（LapsCore）的语言引导人搜索表示学习方法。它可以明确地双向建立细粒度跨模态关联。具体来说，设计了一对双子任务，图像着色和文本完成。在前一个任务中，学习富文本信息以对灰度图像进行着色，后一个任务要求模型理解图像并完成标题中的彩色文字空缺。这两个子任务使模型能够学习文本短语和图像区域之间的正确对齐，从而可以学习丰富的多模态表示。在多个数据集上的大量实验证明了该方法的有效性和优越性。

语言引导的人搜索在智能监控中有着广阔的应用前景，因此引起了人们的广泛关注。如上图所示，它旨在从与自然语言描述查询最匹配的大型图像数据库中检索人物。与基于图像和基于属性的person ReID相比，语言查询比图像查询更容易获得，并且提供了比属性更全面和准确的描述。

在语言引导的人员搜索任务中存在两个主要挑战。首先，由于跨模态间隙，很难计算视觉文本的真实性并构建图像-文本对齐。其次，人员搜索是一项细粒度的检索任务：（1）文本为目标人提供非常详细的描述；（2）人物形象在外观上存在明显的跨类差异。

在语言引导人搜索的开创性工作之后，人们投入了大量精力来应对这项任务的挑战。一些工作设计高级模型，学习更好的图像和文本表示。另一些工作中开发了注意力机制，以建立局部图像-文本关联。还有一些工作提出了新的损失函数来缩小视觉和文本特征之间的距离。然而，所有这些方法都隐含地学习了跨模态局部关联，这对模型的学习能力留下了严格的测试。从大量的语言引导人搜索实验中，作者观察到颜色在检索中起着重要作用。面对个人图像，人类倾向于接受视觉颜色来提取外观信息，然后理解与这些颜色相关的衣服或装饰品。因此，作者受到启发，提出了一种新的表示学习方法LapsCore，通过求解颜色推理子任务，引导模型明确学习细粒度跨模态关联。

如上图所示，第一个子任务，文本引导图像着色（IC），是根据其文本描述对灰度图像进行着色。在该任务中，模型能够正确探测文本中丰富的颜色信息，并将其与相应的图像区域对齐。例如，在上图中，不仅需要提取单词“red”，还需要将“shirt”的语义与“red”配对，并且图像中表示“shirt”的空间区域应为红色。因此，可以构造文本到图像的局部关联。对于相反方向的图像到文本，设计了另一个子任务图像引导文本完成（TC）。具体来说，在每个描述句子中，删除所有颜色词，这些空缺需要利用成对的彩色图像来完成。这样，有效的图像区域可以显著地表示，然后与相关的文本短语相关联。虽然颜色推理任务对于人类来说并不复杂，但它们需要模型的全面跨模态理解来解决。通过使用这两个子任务，可以在主任务图像文本匹配中利用更好的多模态表示。此外，作者提出了另一个“颜色”推理子任务，旨在使用字幕完成缺失通道的图像特征，该任务将IC任务从图像颜色通道完成推广到特征语义通道完成。给定输入图像的特征表示，作者部分屏蔽了一些通道，并使用标题来恢复它们。在此过程中，可以探测和利用包括颜色在内的一般文本信息。因此，在颜色不是标题中的主要信息的情况下，它赋予了本文的方法鲁棒性。

为了解决第一个子任务IC，作者将其转化为像素回归问题。将原始图像处理为灰度图像作为输入，并使用成对字幕恢复原始图像。TC任务可以被视为视觉问答问题，其中问题是一个带有颜色词空缺的句子，答案是候选颜色之一。在图像特征通道完成子任务中，作者首先在个人ID分类任务上预训练特征提取器，然后屏蔽视觉特征图，以便使用字幕进行恢复。作者在语言指导的人员搜索数据集cuhk-pedes上进行了广泛的实验。实验证明，该方法可以显著提高性能。对通用图像文本检索数据集的验证也证实了其有效性，包括加州理工大学UCSD Birds、Oxford-102 Flowers、Flickr30k和MSCOCO。

综上所述，本文工作的主要贡献包括:

1）提出了一种新的表示学习方法LapsCore，以便于明确学习细粒度跨模式关联。它通过求解颜色来工作推理子任务、图像着色、文本完成和图像特征通道完成。

2）在具有挑战性的语言指导的人员搜索数据集CUHK-PEDES上进行了广泛的实验。事实证明，LapsCore可以有效地带来可观的性能提升并实现最先进的结果。

3）所提出的方法被证明是通用的，可以纳入不同的基线并带来改进。在其他跨模态检索任务中也证实了该方法的有效性。

论文题目：LapsCore: Language-guided Person Search via Color Reasoning
详细解读：https://www.aminer.cn/research_report/630384d17cb68b460f0956fbhttps://www.aminer.cn/research_report/630384d17cb68b460f0956fb
AMiner链接：https://www.aminer.cn/?f=cs