行人重识别 PCB-RPP

最新推荐文章于 2024-07-23 14:40:19 发布

DRACO于

最新推荐文章于 2024-07-23 14:40:19 发布

阅读量5.5k

点赞数 2

分类专栏：多任务学习行为检索 Python学习

Python学习同时被 3 个专栏收录

54 篇文章 2 订阅

订阅专栏

行为检索

13 篇文章 0 订阅

订阅专栏

多任务学习

7 篇文章 0 订阅

订阅专栏

什么是行人重识别(ReID)

如下图，给定一个行人图或行人视频作为查询query，在大规模底库中找出与其最相近的同一ID的行人图或行人视频。

ReID（Person Re-identification）任务描述[2]

为什么需要ReID呢？

因为在安防场景下，跟踪一个目标，只靠人脸识别是不够的，在脸部信息丢失时（罪犯有时把脸特意蒙住一大部分，或者离太远了拍不清脸），行人信息就能辅助跟踪识别。

ReID与人脸识别有什么联系和区别？

都是多媒体内容检索，从方法论来说是通用的；但是ReID相比行人更有挑战，跨摄像头场景下复杂姿态，严重遮挡，多变的光照条件等等。

做ReID的话，一般从两方面入手：

A、特征工程，设计网络来学习不同场景下都general的visual feature，用probe-gallery的特征相关性来作为ranking的依据，一般直接Softmax分类。

B、度量学习，设计损失函数，用多张图像的label来约束它们特征之间的关系，使学到的特征尽量类内间隔短，类间间隔大。

PCB-RPP[1]，2017

早期比较经典的文章，方法简洁明了。

main contribution：

1. 提出了均匀分块的 Part-based Convolutional Baseline(PCB)，探讨了较优的块间组合方式

2. 提出了基于 parts 的 Refined part pooling(RPP)，用注意力机制来对齐 parts

PCB框架[1]

如上图所示，PCB框架的流程是：

1、对输入384*128行人图提取深度特征（ResNet50），把最后一个block( averagepooling前)的下采样层丢弃掉，得到空间大小 24*8*2048的 tensor T

2、按照水平方向分成均匀分成6parts，即6个空间大小 4*8*2048 tensor，然后各自进行 average pooling，得到6个column vectors g

3、使用1*1卷积对g降维通道数，然后接6个FC层（权值不共享），Softmax进行分类

4、训练时等于有 6个cross-entropy loss；测试时则将 6个 vectors h 合并在一起，再算相似度

这里有几种组合方式和超参可以探讨：

A、Deep feature的空间维度大小？该分成多少parts？

B、把6个column vector h 先 average pooling 成 1个 vector，再 FC 分类？

C、6个FC层之间的权值是否共享？

作者在文中做了实验来对比结果，找到最优的组合方案~~

至于为什么分part的效果会更好，也是基于行人结构分割的先验知识驱使（类似用Pose key point来做一样）。比如part1，能更有针对性地根据头部信息来分类~~

RPP框架[1]

讲完了PCB，我们来看RPP~

RPP本质上就是个attention module，目标是把6 parts 对应的空间分布进行软权值分配，进而对齐parts（PCB中均匀分割6parts 的过程，其实可看成人为地 hard attention，只把当前part空间权值设为1，其他parts都为0）

如上图所示，RPP思路：

1、把深度特征tensor T 中每个column vectors f 都分为6类（假设共有6个parts），文中是通过线性函数加Softmax来实现（其实就类似用1*1卷积来作segmentation一样）

2、把每个part对应的attention map 权值叠加回 tensor T 里（即上图的 GAP过程），得到各 part 的spatial 空间压缩后的 feature vector g ~ 后续步骤都和PCB一样~

PCB-RPP训练流程：

PCB-RPP训练流程[1]

文中为了保证学到的是part based attention map来对齐parts，故特意在预训练完PCB后，在Step3处先fix住PCB里所有层的参数，单独训练 part classifier。如下图所示，如果不加Step 3的限制，出来的6个attention map 将很随机，性能也会下降。

attention map[1]下图是加了Step3的效果

从实验结果看，加了RPP对MAP提升还是很大的：

Results[1]

总结：

文中PCB的思想虽然简单，但是后续CVPR2018中各种part-based ReID文章(各种 Multi-scale, multi-level part fusion 啥的)提供了参考价值。特别是云从科技的这篇MGN[2]，更是将各种粒度的parts 和 triplet loss+ Softmax loss玩得淋漓尽致~