Densely Semantically Aligned Person Re-Identification
Zhizheng Zhang,Cuiling Lan,Wenjun Zeng,Zhibo Chen 2018 CVPR
1. Motivation
提出了一个密集语义对比的行人reid方法,从根本上解决了由姿态/视点的变化、不完美的行人检测、遮挡等引起的body不对齐问题。通过利用对行人图像进行密集语义估计,本文构造了一组密集语义对齐的部分图像 (DSAP图像) ,其中不同图像的相同空间位置具有相同的语义。本文设计了一个双流网络,分别是完整图像的MF-Stream和密集语义对齐指导的DSAG-Stream,其中DSAG-Stream以DSAG图像作为输入,作为正则作用来引导(guide) MF-Stream 从原始图像中学习密集的语义对齐特征。在推理阶段,DSAG-Stream丢弃,只使用MF-Stream使得推理系统具有计算效率高、鲁棒性好等优点。本文是第一次利用细粒度语义来解决行人图像不对齐问题。
2. 介绍
ReID挑战:
3. 方法
图3说明了这一篇文章其实在每个stream中还是分global+local特征学习的两支路结构。而只不过下支路的学习不是之前的一些方法中用的直接暴力划分stripe,也不是检测part,而是一种密集语义对齐的任务,其目的是密集检测到行人part(更好的对齐),而得到不同的行人part,这些part可以用于行人局部特征或全局特征学习,而MB-Ns包含N条支路,分别对应N个区域的特征学习(文中N=8),得到的结果concat在一起,分global支路和local支路学习特征,即为下支路的情况。而推理时仅使用MF-Stream。损失就是图中的那几个损失,MF-Stream中的两个ID损失都是0.5的权重,而最后汇总处的两个ID损失是1.0权重,而两个Triplet损失是1.5权重,本质上还是三元组损失和交叉熵损失联调,而且设置让三元组损失更重要,最终汇总ID损失权重大于MF支路ID损失权重也就是为了让充分考虑到DSAG支路。
如上图,不是所有part都能检测到,因为有的图像捕捉时就没有这些区域(挡住了或错误检测)。
其中Dense Semantic Alignment模块是由DensePose在COCO-DesePose数据集上训练的结果,但没有做域适应,效果不是太好(因此作者使用的最终行人表示也只用MF分支)。
4. 实验
4.1 实验细节
4.2 和SOTA比
性能其实非常高。但本文其实是用了很多提点的tricks的,在2019年罗浩等人的strong baseline指出了能明显大幅提点的6个tricks,这里用了三个(实验细节中高亮部分),而这6个tricks加上就能到86%的mAP,其余3个tricks包括Label smoothing,center loss和BNNeck,其中前两者提点不大,但BNNeck能提点很多,没看到代码不清楚作者用了没有。
其实可以看到在这里(二三行),LS还是能提点不少的,而DSA在模型推理时,其实并没有贡献特征,因此相当于只是一个正则的作用,和LS作用类似。
模型整体性能还是相当高的。