【行人重识别论文阅读笔记——PAT】_diverse part discovery: occluded person re-identif-CSDN博客

本文链接：https://blog.csdn.net/selami/article/details/124220793

该论文提出一种基于Part-Aware Transformer的行人重识别方法，利用弱监督信息（单一完整目标ID）学习目标不同部分特征。通过Encoder增强像素特征，Decoder生成部分蒙版，采用多样性与辨别性机制提高识别效果。实验表明，该方法在遮挡和部分目标场景下表现优异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【论文】Diverse Part Discovery: Occluded Person Re-identification with Part-Aware Transformer

写在前面

本文主要针对的是存在遮挡的完整ReID，使用transformer网络进行特征提取。本论文是比较早用transformer做reid的工作，对特征提取的结构设计值得借鉴。另外本文仅依靠一个完整目标的标签，就能让网络自主学习到目标不同部分的特征，也是依赖注意力机制和特殊的Loss。

1. Abstract

针对拥挤场景及遮挡问题，提出了一种基于transformer的网络，使其能够依赖较弱的监督信息（仅依赖一个完整目标的ID）学习目标各部分的特征。为了达到此目标，提出了两种decoder的训练loss来提升各类别的区分度和局部鉴别能力。

2. Introduce

在这里插入图片描述

使用Part-Level方式进行ReID已经被证明是非常有效的，Part-Level主要有3种主要的方式

手工分割
手工分割的问题在于其分割方式过于粗糙，按照固定的逻辑分割可能导致不对齐的问题，引入的噪声很大。
额外语义信息
这种方法利用现成的人体姿态或分割的先验信息来定位一个整体目标的各个part，但是在遮挡比较严重的情况下，这种先验信息容易出错。
注意力机制
让网络更关心bbox中的前景，而较少关注bbox中的背景部分信息。但是由于背景和遮挡物的丰富性，导致网络很难仅仅通过一个ID标签区分的清楚，这使很多attention机制的网络仅仅关注行人最显著的特征，而遗漏了较多有用信息。

3. Part-Aware Transformer

在这里插入图片描述

3.1 Overview

网络的整体流程如上图所示，图片通过CNN提取特征后拉直输入transformer中。transformer结构主要包括提取并增强像素级的Encoder和Part级的Decoder。Encoder主要负责增强各个像素的特征，Decoder主要利用一组可学习的参数生成K各part的蒙板，最后利用Encoder和Decoder的两部分输出获得各部分的特征features

3.2 Encoder

Encoder的主要功能是增强feature map的特征，将feature map按hw提取特征 $f_i$ ，通过线性变化 $Q, K, V$ 转换成query，key，value向量。
$s_{i,j} = \frac{exp(\beta_{i,j})}{\sum_{j=1}^{hw} exp(\beta_{i,j})}, \beta_{i,j}=\frac{Q_iK_j^T}{\sqrt{d_k}}$