【Person Search】AAAI2022：Exploring Visual Context for Weakly Supervised Person Search-CSDN博客

本文链接：https://blog.csdn.net/ZJHTERRY/article/details/125392994

本文提出了一种弱监督的单阶段行人搜索方法CGPS，仅需行人搜索框标注，无需身份信息。通过结合无监督re-id算法和利用检测、记忆和场景上下文信息，提升模型性能。在CUHK-SYSU数据集上，精度达到80%，表现优于部分全监督模型。

摘要由CSDN通过智能技术生成

文章目录

前言
Motivation
Method
- - CGPS 整体框架概览
  - Context-Guided Feature Learning
Experiments

前言

本文提出了一种弱监督的单阶段行人搜索方法，可以仅凭借行人的搜索框这一标注信息进行模型训练，而无需行人身份标注。作者将现有单阶段行人搜索框架与无监督re-id算法相结合，并自行提出了一套以上下文为导向的特征学习方法，来更好地利用图像的全局信息辅助搜索。模型在CUHK-SYSU数据集上准确率达到80%，可以与部分全监督方法相媲美。

原文链接：https://arxiv.org/abs/2106.10506

Motivation

从全监督到弱监督

现有的行人搜索算法以全监督学习模式为主，即数据标注信息包含图像上每个人的bounding box和identity这两个label。但是考虑到标注工作量很大，因此本文希望探索一种弱监督person search模式——数据标注仅包含bounding box，不包含identity。
（之所以选择包含bbox的弱监督，是因为现有的一些行人检测器已经能自动生成较准确的bbox标注，可参见https://openaccess.thecvf.com/content_CVPR_2019/papers/Liu_High-Level_Semantic_Feature_Detection_A_New_Perspective_for_Pedestrian_Detection_CVPR_2019_paper.pdf）

弱监督person search框架 CGPS 的提出

（CGPS：Context-Guided Person Search Network）
在模型设计上，以Xiao等人提出的经典one-step行人搜索框架为基础（https://arxiv.org/abs/1604.01850），在re-id任务部分参照Ge等人提出的无监督re-id模型（https://arxiv.org/abs/2006.02713）。
作者认为，现有的无监督re-id方法直接以裁剪过的行人框作为输入，这样的话便没有充分利用图像的context information。因此，在本篇工作中针对性地对以下几类的视觉上下文信息进行了利用：

detection context：检测过程中的大量positive predictions以及negative predictions，都可以作为context信息加以利用，辅助模型学习到的re-id特征在同一bounding box之间趋于一致，而在前景和背景之间趋于远离；
memory context：利用全局的记忆信息引导模型对hard negative样本分配更多注意力；
scene context：加入一个很简单的限制条件——在对预测结果进行聚类时，保证来自同一图片上属于不同的人的prediction不被归到一类中。

主要贡献总结

提出了首个弱监督的行人搜索方法，只利用bounding box标注，不需要身份标注；
系统性地研究了视觉上下文并设计了一系列方法利用这些上下文信息提升模型的性能；
在CUHK-SYSU数据集上的精度达到80%，甚至超越了一些早期的全监督模型。

Method

CGPS 整体框架概览

整体框架沿用了以Faster-RCNN为基础架构的one-step行人搜索框架。
在这里插入图片描述
其中re-id head采用了memory-based unsupervised re-id。首先，建立一个集合，存储训练集中所有instance对应的记忆向量v。每一轮训练时，对所有的instance进行聚类，得到N_c个类别以及它们的聚类中心c。当网络输出一个特征向量x_i时，损失函数定义为

随后，更新该向量所属于的instance的记忆向量v：

Context-Guided Feature Learning

Detection Context
作者设计了一个detection context loss，由两项组成。第一项的作用是拉近属于同一人的feature，拉远属于不同人的feature；第二项的作用是拉近前景与前景之间的feature，拉远前景与背景之间的feature：
Memory Context
作者希望特征学习的过程能够更多地关注那些较难区分的负样本（hard negative examples）。具体做法是，按照聚类中心与当前输入特征x_i的相似度，挑选出K个最难的负样本类，只在这K类与x_i所属的样本类共K+1个类别中计算log softmax loss。即，将（1）中的loss修改为

re-id阶段的总体损失函数即以上两个损失函数的加和：

Scene Context
在聚类时加入一个限制条件：在同一张图片里出现的人不能被归到同一个类别中。
具体实现方法是：在每次聚类结束后，寻找每个类别中属于同一张图片的所有个体（下图的蓝点和红点），只保留距离聚类中心最近的一个（蓝点），其余的个体（红点）分别从该类中除去，独自构成一个新的类。

Experiments

评测了三方面的context guiding对模型准确率的提升效果

与SOTA模型的对比。在CUHK上的性能能超越一部分的监督模型已经十分不易。不过，在PRW数据集上，CGPS与监督学习模型的差距还是不容忽视的。
在这里插入图片描述
与two-step方法比较，推断速度更快，准确率也更高：

本文提出的训练模式也可以被拓展到无监督学习范畴。使用一个行人检测器预测出的bounding box作为真值，即可实现完全不依赖数据标注的预测。文章选取了几种检测模型进行试验，并将行人搜索结果进行了对比。可以看出性能与弱监督模式下已经十分相近。