Person Search Challenges and Solutions: A Survey 基于文本的行人搜索 综述

摘要

人身搜索由于其在现实世界中的应用和研究意义而受到越来越多的关注。人物搜索的目的是在一组场景图像中找到一个被调查的人,这些图像应用广泛,如罪犯搜索、多相机跟踪、失踪人员搜索等。早期的人物搜索工作主要集中在基于图像的人物搜索,以人物图像为搜索查询。
基于文本的人物搜索是另一个主要的人物搜索类别,它使用自由格式的自然语言作为搜索查询。个人搜索是一个挑战,相应的解决方案是多样而复杂的。因此,有系统地调查这个话题是必要的。本文从挑战和解决方案的角度,综述了基于图像和基于文本的人物搜索的最新研究成果。
具体来说,我们提供了一个高影响力的人搜索方法的简要分析,考虑到三个重大挑战: 鉴别人的特征,查询人的差距,以及检测-识别不一致。我们总结和比较评估结果。最后,我们讨论了一些悬而未决的问题和一些有希望的未来研究方向。

介绍

当探测图像不可用而是自由格式的自然语言时,基于文本的人物搜索非常方便。两种类型的人身搜索如图1所示。
人身搜索比人身搜索面临更多的挑战。与提供裁剪过的人物图像的人物重新标识设置不同,主要的挑战就是将查询人与人之间的差距。人员搜索需要处理额外的检测挑战,以便被检测的人员可以用于下游识别任务。由于姿态、遮挡、分辨率和背景杂波等因素的影响,附加检测任务面临更多的挑战。这些侦测结果可能与识别任务不一致(图2)。同样,基于文本的人物搜索也比传统的文本-图像匹配问题更具挑战性[ liet al,2017b ] ,因为它需要在文本人物匹配之前首先学习鉴别特征。
个人搜索是快速发展的,现有的个人搜索方法多样而复杂。
分别对目标检测人物 reid 和文字图像匹配有丰富的知识。有系统的搜人调查为社会带来更多的价值。特别是,据我们所知,目前还没有关于基于文本的个人搜索的调查。[伊斯兰,2020]调查的工作是基于图像的个人搜索,忽略了基于文本的个人搜索。此外,[伊斯兰教,2020]没有讨论人的检测和识别的联合挑战,特别是检测-识别不一致的挑战,如图2所示。因此,我们的调查工作超越了基于图像的个人搜索,并提供了一个系统综述的不同的个人搜索解决方案。我们总结了上一次调查[伊斯兰教,2020年]与表1中我们调查的主要区别。在这项调查中,我们的目的是提供一个最近的人搜索作品的连贯性分析,以便能够抓住背后的理性想法,激发新的想法。具体来说,我们调查了最近在顶级会议场所和期刊上发表的和印刷前的个人搜索论文。我们从挑战和解决方案的角度分析方法,并相应地总结评价结果。在论文的最后,我们提供了有前途的未来研究方向的见解。综上所述,本次调查的主要贡献是:
•除了基于图像的人物搜索之外,我们还涵盖了在以往的人物搜索调查中被忽略的基于文本的人物搜索。
•我们从挑战和激发新想法的解决方案的角度来分析个人搜索方法。
•我们总结和分析了现有方法的表现,并就有前途的未来研究方向提供了见解。

Person Search

人身搜索是一个快速发展的研究课题。在2014年,[ xu 等人,2014]首先介绍了人身搜索问题,并指出了人身检测和人身识别子任务之间的冲突性质。人体检测处理的是普通人的外貌,而识别任务则侧重于人的唯一性。在2017年首次引入端到端人肉搜索框架之后,我们看到在过去三年中基于图像的人肉搜索工作的数量在不断增加。
我们绘制了一个时间线来展示人物搜索工作在图3中,并显示两个部分: 基于图像的人物搜索和基于文本的人物搜索。
人身搜索地址人身检测和人身识别同时进行。在开发人肉搜索解决方案时,有三个重要的人肉搜索挑战需要考虑。首先,人物搜索模型需要从适合于匹配查询身份的场景图像中学习识别人物特征。不可避免地,学习者特征与查询身份特征存在一定程度的差异。因此,第二个主要挑战是如何在查询和被检测人之间建立差距。第三个挑战涉及到人身识别与人身识别之间的冲突性。人物检测主要处理普通人的外貌,而识别任务则侧重于人的独特性。被侦测人士可能不适合进行身份核对。例如,在检测过程中,部分人体可被视为一个人,并且与身份识别阶段的查询身份不一致,而身份识别阶段的查询身份可能是一个全人图像。
在这一部分中,我们分析了基于图像和基于文本的人物搜索在上述三个方面面临的挑战以及相应的解决方案:

  1. 深度特征表征学习。解决从画廊图像中学习关于背景杂乱、遮挡和姿势等有区别的人物特征的挑战。
  2. 深度度量学习。通过使用损失函数指导特征表征学习来解决带来查询人差异的挑战。
  3. 身份驱动侦测。通过将查询身份纳入侦测过程,解决减少侦测-识别不一致的挑战。

深度特征表征学习

深度特征表征学习侧重于学习画廊图像中干扰物的区分性人物特征。大多数早期方法利用了全局人格特征,包括语境线索,同时精炼人格提议。例如 rcaa [ changet al. ,2018]利用关系空间和时间上下文在一个深层强化学习框架中来调整边界经常有box。然而,这些方法没有考虑提案包围盒中的背景杂乱,导致背景相似的不同人在学习的特征空间中靠得很近的情况。Smg [ zheng et al. ,2020a ]使用分割遮罩消除背景杂乱,使得学习者的特征对背景杂乱具有不变性。Nae [ chenet al. ,2020]通过标准来区分人和背景,通过角度来区分人的身份。一般而言,人物探测和目标检测都面对多尺度配对的挑战。为了学习尺度不变特征,clsa [ lanet al. ,2018]和 dhff [ luet al. ,2019]利用来自识别网络的多级特征来解决具有不同多度量损失的多尺度匹配问题。
当两个人外貌相似,不能仅仅因为全身的外貌而区别对待时,局部区分特征是有用的。将身体分为六部分,并使用注意力机制进一步衡量身体各部分的贡献。与使用任意身体部位的 apnet 不同,cgps [ y anet al. 2019]提出了一种基于区域的特征学习模型,用于从人物图中学习上下文信息。Binet [ donget al. ,2020a ]使用裁剪过的人物补丁的指导来消除边界框外的环境影响。基于文本的人物搜索中的深度特征表征学习能够学习被检测人物对文本特征最符合的视觉表征。与基于图像的人物搜索相似,基于文本的人物搜索方法利用了全局和局部区分特征。Gna-rnn [ li et al. ,2017b ]利用第一个基于文本的 lstm-cnn 人物搜索框架中的全球特性,并使用注意力机制来学习最相关的部分。Gna-rnn 只关注视觉元素,不涉及各种文本结构。为了解决这个问题,cmce [ liet al,2017a ]使用了一个潜在的语义注意模块,并且对文本语法变化更加健壮。为了解决背景杂乱问题,pma [ jinget al,2020b ]使用姿态信息从人体关键点的地图中学习姿态相关特征。为了进一步区分具有相似全局外观的人,pwm a th [ chenet al. ,2018b ]利用-文字-图像匹配模型来捕捉局部相似性。将图像和文本分解为属性组件,并采用细粒度匹配策略来增强图像和文本之间的相互作用。
天然的transformer!!!!!!!!!!!

Deep Metric Learning

深度量化学习采用损失函数处理查询-人差异问题,指导特征表征学习。一般用途是使被检测的人的特征接近目标身份,同时将他们与其他身份分开。欧几里得度量和余弦距离等相似度量是衡量查询人对之间相似程度的常用方法。识别任务一般表示为一个通用的最大丢失/容错分类问题。Softmax 有一个主要的问题,就是大量类的缓慢收敛。Oim (eq: 2)[ xiaoet al. ,2017]解决了这个问题,同时利用了大量的身份和未标记的身份。Oiam [ gaoet al. ,2019]和 iel [ shiet al. ,2018]进一步改进 oim 方法,增加中心损失。与其他方差不同,i-net [ he and zhang,2019]引入了一种具有在线配对丢失(opl)和硬例优先级软最大丢失(hep)的暹罗结构,从而带来了查询-人差异。使用识别丢失代替回归丢失来监督包围盒[ hanet al. ,2019]。
在具有里程碑意义的信息丢失方法中,信息丢失通过利用训练数据中标记和未标记的身份,有效地弥补了查询人与查询人之间的差距。被发现的人的概率特征 x 被认为是一个柔性最大激活函数的一类人的身份:
在查找表(lut)中,被标记的人的特征是他的身份。Vtjis the jthlabel person features in the lut.utkis thekthunlabelled person features in the lut.ττ 规范概率分布。目标是最大化目标的可能性。L = ex [ logpt ].(2)基于文本的人称搜索中的度量学习是为了缩小文本-图像通道差距。基于文本的人物搜索面临的主要挑战是需要模型从自由形式的文本描述中处理复杂的语法。为了解决这个问题,像 vitaa,cmce,pwm a th [ wanget al,2020b; liet al,2017a; chen et al,2018b ]这样的方法使用注意机制来建立视觉和文本表示之间的关系模块。与以上三种方法都是 cnn-rnn 框架不同,双路径方法[ zhenget al,2020b ]采用 cnn 进行文本特征学习,提出了一种实例丢失的图像-文本检索方法。Cmpm cmpc [ zhang and lu,2018]利用跨模态投影匹配(cmpm)损失和跨模态投影分类(cmpc)损失来学习有区别的图文表示。与 cmpm cmpc 类似,man [ jinget al. ,2020a ]提出了用于联合嵌入学习的交叉目标函数,以解决域自适应基于文本的人员搜索问题。受最近成功的知识提取的启发[ hintonet al. ,2015] ,取代了直接训练检测和识别子网,这两个模块可以从预先训练的检测和识别模型中学习[ munjalet al. ,2019b ]。通过在辨识模型的学习中引入不同的知识提取方法来提高辨识性能。具体来说,一个预先训练的外部辨识模型是用来教内部辨识模型。简化的知识提取过程如图4所示。

身份驱动检测

通过在检测过程中融入身份信息,解决了基于图像的人身检测中的检测-识别不一致问题。这意味着在训练过程中,地面真实的人的身份被用来指导人的建议,或者在搜索时,查询身份信息被用来细化边界框。个人搜索在一个框架中处理个人检测和个人识别挑战。从体系结构的角度来看,现有的人员搜索方法可以分为两个阶段和端到端的解决方案。在两阶段人员检测中,检测和识别模型分别训练以获得检测和识别模型的最佳性能[ zhang et al. ,2020; loeschet al. ,2019]。然而,由于检测-识别不一致的问题,单独训练的模型可能不会产生最佳人搜索结果。为了解决这两个分支之间的不一致问题,tcts [ wanget al,2020a ]和 igpn pcb [ dong et al,2020b ]在搜索时利用查询信息过滤掉低可能的建议。端到端方法在检测和识别之间共享视觉特征,显著减少运行时间。然而,联合学习有助于次优检测性能[ wanget al. ,2020a ] ,这随后恶化了检测-识别不一致问题。来解决这个问题。无限制的和 qeeps [ munjalet al. ,2019a ]利用查询信息优化检测过程中的个人建议。不同于查询引导的方法,rdlr [ hanet al,2019]使用标识损失监督包围盒的生成。因此,求婚包围盒更可靠。在个人搜索设置中,查询标识出现在图库图像中。因此,上面提到的所有方法本质上都是在检测过程中融入了恒等式。基于文本的个人搜索/无关检测/识别不一致挑战,因为求婚者是通过文本图像匹配来识别的,而不需要比较边界框。因此,基于文本的人物搜索主要侧重于学习视觉和语言特征,提高匹配的准确性。目前大多数基于文本的人物搜索方法是端到端的框架,包括一个 cnn 骨干网提取视觉元素和一个双 lstm 学习语言表示。两个模块联合训练,从学习的视觉特征和语言特征表征建立词-图像关系。Cmce [ liet al. ,2017a ]是第一阶段的 cnn-lstm 网络学习跨模态特征的唯一两阶段框架,在第二阶段,cnn-lstm 网络使用注意力机制提炼匹配结果

工作总结和未来的方向

在这项调查中,我们回顾了最近的人物搜索进展,包括基于图像和基于文本的人物搜索。在过去的几年中,我们已经取得了显著的成就,但是如何解决三个重要的人身搜索挑战,即区分特征、查询-人差距和侦查-识别不一致,仍然是一个有待解决的问题。接下来,我们讨论一些未来的研究方向。

多模态人物搜索。

–退出–( 这里作者打错字了哈哈哈哈哈哈哈 )的工程集中于图像或文本搜索。他们都没有尝试多模式搜索方法,其中查询图像和查询文本相互补充。多模态人物搜索在部分人物图像(如护照大小的图像)可用时非常方便。同时,自由文本提供了身体的其余部分外观。具体来说,香港中文大学的数据库可以扩展,并加上标注的方框。因此,香港中文大学彼得斯既有注释边界框和文字说明,使它成为一个合适的候选人的多模态人搜索数据集。基于属性的人工搜索对于机器学习复杂句子语法来说是一个巨大的挑战。

基于属性的人物搜索方法

aihm [ donget al. ,2019]优于基于文本的方法 gna-rnn [ liet al. ,2017b ]。因此,有必要对场景图像进行属性注释,进一步提高基于属性的人物搜索。最先进的基于文本的人物搜索方法 vitaa [ wanget al,2020b ]将文本描述分解为属性,以学习细粒度的鉴别特征。属性注释可以简化这个过程,从而提高基于文本的个人搜索性能。

基于文本的人员搜索本质上是一个零概率学习问题

在这个问题中,查询人员在训练中是不可见的。[ donget al,2019]将基于属性的个人搜索定义为零概率学习(zero-shot learning,zsl)问题。在零镜头学习中,在训练时可以得到零训练图像,只有文本描述等语义表示可以推断出未知类。基于文本的人物搜索可以利用零点学习的知识,例如使用逆向生成的人物特征来增加训练数据。

结论

在这项调查中,我们提供了最近关于个人搜索的系统综述。本文首次对基于文本的人物搜索研究较少的文献进行了调查。我们从挑战和解决方案的角度简要讨论了高度重视的方法。我们总结和比较了人员搜索方法的表现,并提出了一个人员搜索方法需要解决的联合挑战鉴别特征,查询人员差距,检测-识别不一致。最后讨论了该领域现有研究者和新研究者可能感兴趣的一些未来研究方向。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值