【行人重识别论文阅读笔记——PAT】

该论文提出一种基于Part-Aware Transformer的行人重识别方法,利用弱监督信息(单一完整目标ID)学习目标不同部分特征。通过Encoder增强像素特征,Decoder生成部分蒙版,采用多样性与辨别性机制提高识别效果。实验表明,该方法在遮挡和部分目标场景下表现优异。
摘要由CSDN通过智能技术生成

【论文】Diverse Part Discovery: Occluded Person Re-identification with Part-Aware Transformer

写在前面

本文主要针对的是存在遮挡的完整ReID,使用transformer网络进行特征提取。本论文是比较早用transformer做reid的工作,对特征提取的结构设计值得借鉴。另外本文仅依靠一个完整目标的标签,就能让网络自主学习到目标不同部分的特征,也是依赖注意力机制和特殊的Loss。

1. Abstract

针对拥挤场景及遮挡问题,提出了一种基于transformer的网络,使其能够依赖较弱的监督信息(仅依赖一个完整目标的ID)学习目标各部分的特征。为了达到此目标,提出了两种decoder的训练loss来提升各类别的区分度和局部鉴别能力。

2. Introduce

在这里插入图片描述

使用Part-Level方式进行ReID已经被证明是非常有效的,Part-Level主要有3种主要的方式

  1. 手工分割
    手工分割的问题在于其分割方式过于粗糙,按照固定的逻辑分割可能导致不对齐的问题,引入的噪声很大。
  2. 额外语义信息
    这种方法利用现成的人体姿态或分割的先验信息来定位一个整体目标的各个part,但是在遮挡比较严重的情况下,这种先验信息容易出错。
  3. 注意力机制
    让网络更关心bbox中的前景,而较少关注bbox中的背景部分信息。但是由于背景和遮挡物的丰富性,导致网络很难仅仅通过一个ID标签区分的清楚,这使很多attention机制的网络仅仅关注行人最显著的特征,而遗漏了较多有用信息。

3. Part-Aware Transformer

在这里插入图片描述

3.1 Overview

网络的整体流程如上图所示,图片通过CNN提取特征后拉直输入transformer中。transformer结构主要包括提取并增强像素级EncoderPart级Decoder。Encoder主要负责增强各个像素的特征,Decoder主要利用一组可学习的参数生成K各part的蒙板,最后利用Encoder和Decoder的两部分输出获得各部分的特征features

3.2 Encoder

Encoder的主要功能是增强feature map的特征,将feature map按hw提取特征 f i f_i fi,通过线性变化 Q , K , V Q,K,V Q,K,V转换成query,key,value向量。
s i , j = e x p ( β i , j ) ∑ j = 1 h w e x p ( β i , j ) , β i , j = Q i K j T d k s_{i,j} = \frac{exp(\beta_{i,j})}{\sum_{j=1}^{hw} exp(\beta_{i,j})}, \beta_{i,j}=\frac{Q_iK_j^T}{\sqrt{d_k}} si,j=j=1hwexp(βi,j)exp(βi,j),βi,j=dk

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值