End-to-End Thorough Body Perception for Person Search 阅读笔记
2020 AAAI
Problem
在search任务中,除了检测结果会对reid造成影响外,背景信息也同样影响着结果。也就是background clutter and misalignment. 如图:
Motivation
为了处理以上问题:首先可以通过突出前景的特征来弱化背景的干扰,其次由于人体姿态引起图像间的错位bbox的问题,可以通过人体的关键点来解决。
Contribution
第一次将person instance segmentation and keypoint detection 引入search的任务;
设计一个生快的baseline;
利用FFEM丰富前景人物的语义特征(细粒度的);
提出一种特征学习算法来应对行人身体部位的对齐。
Method
backbone采用FPN,之后将特征共享给四个模块。
有个前提是文章中先对CUHK-SYSU和RPW的数据集进行一个预处理,用coco上的须训练模型对数据生成pesudo mask和keypoints annotations
其中对应了五个损失函数:
baseline:
将原baseline的resnet最后一个模块替换掉,换为四个级联的卷积层,输出的结果维度不变,还是256维。
Foreground Feature Enhance Module:
由于冗余的场景信息可能被错误的加权,从而影响后序的匹配。使用了FFEM
FFEM保留和增强任务特征图中的时空信息,增强reid分支中的特征表达能力。
将掩码特征和全局特征图进行乘积,再加上原始R,可以在掩码过滤背景时,防止丢失前景信息。
Keypoints-Guided Learning Algorithm
全局的上下文特征受到行人身体部位错位的影响,文章将关键点引入作为辅佐。
文章提出一种关键点引导的算法,生成抽象区域。将人划分为上身,躯体和头肩。
具体的算法分三部分:获取关键点信息,划分抽象区域,区域数不大于3,每个部位在标签的监督下分别学习区分嵌入。(很好的解决行人姿态变化带来的影响,也因为考虑了抽象部分的可见性,对遮挡也有鲁棒性)
Experiment
效果图
结果
缺点
模型依赖于精准的关键点标注和掩码的生成,但是文章只是简单的依赖于一个预训练模型的结果,无法保障准确性。
在划分抽象区域的时候,头部区域的背景干扰会很大,文章只是减小了该区域的维度,缓解了干扰,并没有完全解决这个问题。