TransReID | 首次将transformer应用于行人重识别

0x00 什么是Transformer

Transformer由Attention is all you need论文提出。

摘要

优势的序列转换模型基于复杂的递归或卷积神经网络,包括一个编码器和一个解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构,即Transformer,它完全基于注意力机制,完全省去了递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上优越,同时更具并行性,并且需要更少的训练时间。

结构

每个子层都存在残差连接
在这里插入图片描述
编码组件部分由一堆编码器(encoder)构成,解码组件部分也是由相同数量(与编码器对应)的解码器(decoder)组成的。所有的编码器在结构上都是相同的,但它们没有共享参数。每个解码器都可以分解成两个子层。解码器中也有编码器的自注意力(self-attention)层和前馈(feed-forward)层。除此之外,这两个层之间还有一个注意力层,用来关注输入句子的相关部分。

quoted from 小白看得懂的Transformer

所以,模型的主要部分👇堆叠
在这里插入图片描述
将输入序列进行词嵌入之后,每个单词都会流经encoder中的两个子层。
多头注意力层:

在这里插入图片描述 A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk QKT)V

线性变换和Softmax层:
在这里插入图片描述


0x01 TransReID: Transformer-based Object Re-Identification, ICCV2021

在这里插入图片描述Paper
Code

导读

WHY: CNN处理范围小(缺乏长距离依赖)而且偏向关注局部信息,并且,由卷积和下采样等算子会造成细粒度信息丢失的问题。

WHAT: 首先提出以Transformer为基础的baseline来解决CNN网络存在的缺点

  1. 多头注意力机制,使得网络关注整个行人的身体;
  2. 没有卷积和下采样,不会丢失细节信息。

再基于此进行优化得到更强的baseline:

  1. 提出了jigsaw patch module(JPM):通过移位和混洗操作来重新排列patch embeddings,能提取全局不变性的特征;
  2. 引入side information embeddings(SIE):通过可学习的embedding融进一些非视觉信息(相机/视角),消除不同相机间的匹配差异。

HOW: TransReID在MSMT17、Market1501、DukeMTMC-reID、OccludedDuke、VeRi-776和VehicleID数据集上分别达到行人重识别和车辆重识别基准的SOTA性能。在这里插入图片描述


Methodology

基于transformer的强基线框架:
在这里插入图片描述
总体结构继承ViT,可学习的position embedding,最后输出有所不同(比如BN层)。
Overlapping Patches:区别于纯transformer的模型(e.g. ViT, DeiT)将图像分割成不重叠的补丁,从而丢失补丁周围的局部相邻结构。作者使用滑动窗口生成具有重叠像素的patch。
有监督学习:全局特征的triplet loss和ID loss

改进后,TransReID的框架:
在这里插入图片描述

JPM

由于遮挡和错位等挑战,我们可能只能部分观察到一个物体。学习细粒度的局部特征(如条纹特征)已被广泛用于基于CNN的方法来应对这些挑战。
ShuffleNet启发,如上图,将最后一层的输入打乱顺序然后分组,
推理过程中,最后的损失是全局损失+打乱的每组损失。

SIE

将相机和角度联合编码为S(C,V)
最终输入为原始输入+超参处理过的相机信息

Ablation study

Baseline:ViT-B/16

  • JPM
    在这里插入图片描述
  • SIE
    在这里插入图片描述
  • TransReID
    在这里插入图片描述
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ca1m4n

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值