据作者称,这个第一个使用纯Transformer进行ReID研究的工作(其中提出ViT-BoT强劲的baseline),TransReID在行人和车辆重识别任务上均表现SOTA!Transformer杀疯了
注1:文末附【Transformer】和【Re-ID】交流群
注2:整理不易,欢迎点赞,支持分享!
TransReID: Transformer-based Object Re-Identification
- 作者单位:阿里巴巴, 浙江大学
- 论文:https://arxiv.org/abs/2102.04378
在本文中,我们探讨了基于视觉Transformer的ViT,将其用于目标重识别(ReID)任务。经过几次改进,以ViT为骨干构建了一个强大的基线ViT-BoT,在几个ReID基准上,该结果与基于卷积神经网络(CNN-)的框架可比。
此外,考虑到ReID数据的特殊性,设计了两个模块:
(1)对于Transformer,将摄像机或视点之类的非可视信息编码为矢量嵌入表示形式是非常自然和简单的。插入这些嵌入中,ViT可以消除由各种相机或视点引起的偏差。
(2)我们设计了与全局分支平行的Jigsaw分支,以促进在两分支学习框架中训练模型。在Jigsaw分支中,设计了一个Jigsaw patch模块