[阅读心得] 行人重识别经典论文——PAT
【论文】Diverse Part Discovery: Occluded Person Re-identification with Part-Aware Transformer
写在前面
本文主要针对的是存在遮挡的完整ReID,使用transformer网络进行特征提取。本论文是比较早用transformer做reid的工作,对特征提取的结构设计值得借鉴。另外本文仅依靠一个完整目标的标签,就能让网络自主学习到目标不同部分的特征,也是依赖注意力机制和特殊的Loss。
1. Abstract
针对拥挤场景及遮挡问题,提出了一种基于transformer的网络,使其能够依赖较弱的监督信息(仅依赖一个完整目标的ID)学习目标各部分的特征。为了达到此目标,提出了两种decoder的训练loss来提升各类别的区分度和局部鉴别能力。
2. Introduce
使用Part-Level方式进行ReID已经被证明是非常有效的,Part-Level主要有3种主要的方式
- 手工分割
手工分割的问题在于其分割方式过于粗糙,按照固定的逻辑分割可能导致不对齐的问题,引入的噪声很大。 - 额外语义信息
这种方法利用现成的人体姿态或分割的先验信息来定位一个整体目标的各个part,但是在遮挡比较严重的情况下,这种先验信息容易出错。 - 注意力机制
让网络更关心bbox中的前景,而较少关注bbox中的背景部分信息。但是由于背景和遮挡物的丰富性,导致网络很难仅仅通过一个ID标签区分的清楚,这使很多attention机制的网络仅仅关注行人最显著的特征,而遗漏了较多有用信息。
3. Part-Aware Transformer
3.1 Overview
网络的整体流程如上图所示,图片通过CNN提取特征后拉直输入transformer中。transformer结构主要包括提取并增强像素级的Encoder和Part级的Decoder。Encoder主要负责增强各个像素的特征,Decoder主要利用一组可学习的参数生成K各part的蒙板,最后利用Encoder和Decoder的两部分输出获得各部分的特征features
3.2 Encoder
Encoder的主要功能是增强feature map的特征,将feature map按hw提取特征 f i f_i fi,通过线性变化 Q , K , V Q,K,V Q,K,V转换成query,key,value向量。
s i , j = e x p ( β i , j ) ∑ j = 1 h w e x p ( β i , j ) , β i , j = Q i K j T d k s_{i,j} = \frac{exp(\beta_{i,j})}{\sum_{j=1}^{hw} exp(\beta_{i,j})}, \beta_{i,j}=\frac{Q_iK_j^T}{\sqrt{d_k}} si,j=∑j=1hwexp(βi,j)exp(βi,j),βi,j=dk