点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
本文提出了首个弱监督/无监督的行人搜索框架,无需身份标签甚至无需行人框标注,通过充分挖掘场景中的语义信息,直接生成高质量的伪标签,对单阶段的行人搜索网络进行训练,极大降低了数据标注成本,模型和代码刚刚开源。
Exploring Visual Context for Weakly Supervised Person Search
作者单位:上海交通大学,IIAI
文章链接:https://arxiv.org/abs/2106.10506
代码链接:https://github.com/ljpadam/CGPS
1 简介
行人搜索任务需要从场景中同时对目标人物进行检测(detection)和识别(re-id),因此通常使用包含检测和re-id的多任务学习网络进行建模。由于行人身份特征标注困难,已经有众多工作单独对re-id任务中的弱监督/无监督学习框架进行了广泛研究。行人搜索任务也面临相似的挑战,但是目前为止尚缺乏该方面的研究工作。本文以此为出发点,探索了如何在标注数据缺乏的情况下,设计一个高效鲁棒的行人搜索网络。
2 主要方法
图 1 网络结构
如图1所示,作者采用了经典的基于Faster-RCNN的单阶段行人搜索框架,作为基线网络,其中检测框使用真实标签(弱监督)或者其他检测器生成的框(无监督)作为标注,行人的身份标签使用一种无监督的re-id学习方法(SPCL)生成。作者重点分析了无监督re-id任务和行人搜索任务的区别,即re-id需抠出单独的行人个体进行训练,并未有效利用行人搜索任务中的上下文信息。基于此,作者充分挖掘了以下三种上下文信息,以更好的服务于行人搜索任务:
1)检测信息(Detection Context)
图 2 检测信息的约束方法,相同颜色点代表同一个样本的特征,白点代表背景特征
在网络训练过程中,每个ground truth框会对对应多个正样本,这些正样本都对应于同一个人。如图2所示,本文提出对这些样本的re-id特征进行约束,使其同人相近、异人相远;同时,需要尽量区分前景行人特征和背景特征。具体公式如下:
2)记忆信息(Memory Context)
原始的SPCL通过外部记忆的方式对网络进行训练,存储聚类的中心点c,并通过计算样本和聚类中心点的距离计算loss:
这种情况下,所有聚类中心都参与计算。本文基于难样本挖掘的思想,只选取最难的K个中心参与计算,使得每个样本得到更充分的训练。不同于现有的难样本挖掘方法,本文中的难例数量K不固定,而是通过计算难样本所占比重,由一个比例系数确定:
改进过的loss如下:
3)场景信息(Scene Context)
图 3 场景中存在的聚类限制
SPCL直接使用聚类结果为行人身份分配伪标签,这忽略了场景中天然存在的限制,例如,出现在同一张图片中的行人不能被分配到相同的ID。基于此,本文提出了一种聚类结果的优化方法。即,遍历聚类结果,如果发现出现在同一张图片中的行人被聚在同一个簇中,则仅保留离聚类中心最近的样本,剔除其他样本。如图三所示,红色样本和蓝色样本出现在一张图片中,同时被聚为一个簇,则剔除红色样本,保留蓝色样本,红色样本形成一个单独的类别。
3 实验结果
本文在CUHK-SYSU和PRW两个行人搜索数据库上展开了实验。验评估指标为平均精度均值(mean Average Precision,简称mAP)和Top-1精度。
1)比较实验
观察CUHK-SYSU上的比较实验,使用本文提出的三种上下文信息相较于基准模型mAP提升了8.3%,top-1精度提升了7.6%,单独使用某一类信息对实验结果也都有正向提升。
2)三类信息的有效性实验
分别验证了不同超参数对实验结果的影响,进一步验证了三类上下文信息的有效性。
3)和监督模型的比较
本文提出的弱监督方法和最好的监督模型相比,差距在20%左右,基本匹配无监督的re-id模型和有监督re-id模型的差距。作者在文中表示,希望该工作能够为后续工作提供一个起点,缩小与有监督模型的差距。
4)和两阶段模型的比较
作者从性能和效率方面与Faster RCNN和一些最近的无监督re-id模型的组合进行了比较,发现本文提出的单阶段模型从性能和效率方面都超过了两阶段模型。
5)无监督试验结果
作者分别使用了COCO数据集上训练不同检测器产生的行人检测框作为标注,发现和使用真实框作为标注的弱监督模型比较,性能差距较小,说明了完全无监督情况下训练行人搜索模型的可能性。
CVPR和Transformer资料下载
后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加小助手微信,进交流群▲点击上方卡片,关注CVer公众号
整理不易,请给点赞和在看