文本属性人员搜索

文本属性人员搜索,旨在通过分析文本描述中的属性信息来搜索或识别特定人员。这种方法特别适用于需要从大量图像或视频中根据特定描述找到目标对象的场景,例如在安全监控中通过描述寻找特定人员。

使用的技术包括:

  1. 跨模态对齐:由于文本和图像是两种不同的模态(即不同的表现形式),它们之间存在显著的差异。为了有效地匹配文本描述和图像中的人物,本文提出了一个属性感知的隐式模态对齐(AIMA)框架,通过学习文本属性和图像之间的局部表示对应关系,并结合全局表示来缩小模态差距。

  2. CLIP模型:本文利用了CLIP模型作为骨干,通过设计提示模板将属性组合转换为结构化句子,帮助模型更好地理解和匹配图像中的细节。

  3. 蒙版属性预测(MAP)模块:通过多模态交互,预测图像和蒙版文本属性特征交互后的蒙版属性,从而实现隐式局部关系对齐。

  4. 属性-IoU引导的内模态对比(A-IoU IMC)损失:用于将嵌入空间中不同文本属性的分布与它们的IoU分布对齐,实现更好的语义排列。

通过这些技术的结合,本文方法在Market-1501 Attribute、PETA和PA100K数据集上表现优异,显著超越了当前的先进方法。

  1. 提高搜索准确性:通过学习文本与图像之间的复杂关系,这种方法可以更准确地从图像中识别出符合特定文本描述的人物。

  2. 解决跨模态差异问题:以往的方法只考虑了跨模态的对齐,可能导致信息失真,而AIMA框架能够更好地处理不同模态之间的差异。

  3. 广泛应用:这种技术可以应用于安全监控、身份识别等领域,在需要从大量图像中快速找到特定人员时具有重要价值。

论文作者:Xin Wang,Fangfang Liu,Zheng Li,Caili Guo

作者单位:Beijing University of Posts and Telecommunications

论文链接:http://arxiv.org/abs/2406.03721v1

内容简介:

1)方向:文本属性人员搜索

2)应用:人员搜索

3)背景:文本属性与图像之间存在显著的模态差距,以前的方法主要集中在通过单模态预训练模型实现显式表示和对齐。然而,这些模型中缺乏跨模态对应可能导致单模态局部信息的失真。此外,这些方法只考虑了跨模态的对齐,忽略了不同属性类别之间的差异。

4)方法:本文提出一个属性感知的隐式模态对齐(AIMA)框架,学习文本属性和图像之间的局部表示对应关系,并结合全局表示匹配来缩小模态差距。首先,引入CLIP模型作为骨干,并设计提示模板将属性组合转换为结构化句子,以便模型更好地理解和匹配图像细节。接下来,设计了一个蒙版属性预测(MAP)模块,通过多模态交互预测图像和蒙版文本属性特征交互后的蒙版属性,从而实现隐式局部关系对齐。最后,提出了一个属性-IoU引导的内模态对比(A-IoU IMC)损失,将嵌入空间中不同文本属性的分布与它们的IoU分布对齐,实现更好的语义排列。

5)结果:在Market-1501 Attribute、PETA和PA100K数据集上进行了大量实验,结果表明所提出的方法的性能显著超过了当前最先进的方法。

  • 16
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

学术菜鸟小晨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值