文本属性人员搜索,旨在通过分析文本描述中的属性信息来搜索或识别特定人员。这种方法特别适用于需要从大量图像或视频中根据特定描述找到目标对象的场景,例如在安全监控中通过描述寻找特定人员。
使用的技术包括:
-
跨模态对齐:由于文本和图像是两种不同的模态(即不同的表现形式),它们之间存在显著的差异。为了有效地匹配文本描述和图像中的人物,本文提出了一个属性感知的隐式模态对齐(AIMA)框架,通过学习文本属性和图像之间的局部表示对应关系,并结合全局表示来缩小模态差距。
-
CLIP模型:本文利用了CLIP模型作为骨干,通过设计提示模板将属性组合转换为结构化句子,帮助模型更好地理解和匹配图像中的细节。
-
蒙版属性预测(MAP)模块:通过多模态交互,预测图像和蒙版文本属性特征交互后的蒙版属性,从而实现隐式局部关系对齐。
-
属性-IoU引导的内模态对比(A-IoU IMC)损失:用于将嵌入空间中不同文本属性的分布与它们的IoU分布对齐,实现更好的语义排列。
通过这些技术的结合,本文方法在Market-1501 Attribute、PETA和PA100K数据集上表现优异,显著超越了当前的先进方法。
-
提高搜索准确性:通过学习文本与图像之间的复杂关系,这种方法可以更准确地从图像中识别出符合特定文本描述的人物。
-
解决跨模态差异问题:以往的方法只考虑了跨模态的对齐,可能导致信息失真,而AIMA框架能够更好地处理不同模态之间的差异。
-
广泛应用:这种技术可以应用于安全监控、身份识别等领域,在需要从大量图像中快速找到特定人员时具有重要价值。

论文作者:Xin Wang,Fangfang Liu,Zheng Li,Caili Guo
作者单位:Beijing University of Posts and Telecommunications
论文链接:http://arxiv.org/abs/2406.03721v1
内容简介:
1)方向:文本属性人员搜索
2)应用:人员搜索
3)背景:文本属性与图像之间存在显著的模态差距,以前的方法主要集中在通过单模态预训练模型实现显式表示和对齐。然而,这些模型中缺乏跨模态对应可能导致单模态局部信息的失真。此外,这些方法只考虑了跨模态的对齐,忽略了不同属性类别之间的差异。
4)方法:本文提出一个属性感知的隐式模态对齐(AIMA)框架,学习文本属性和图像之间的局部表示对应关系,并结合全局表示匹配来缩小模态差距。首先,引入CLIP模型作为骨干,并设计提示模板将属性组合转换为结构化句子,以便模型更好地理解和匹配图像细节。接下来,设计了一个蒙版属性预测(MAP)模块,通过多模态交互预测图像和蒙版文本属性特征交互后的蒙版属性,从而实现隐式局部关系对齐。最后,提出了一个属性-IoU引导的内模态对比(A-IoU IMC)损失,将嵌入空间中不同文本属性的分布与它们的IoU分布对齐,实现更好的语义排列。
5)结果:在Market-1501 Attribute、PETA和PA100K数据集上进行了大量实验,结果表明所提出的方法的性能显著超过了当前最先进的方法。












2137

被折叠的 条评论
为什么被折叠?



