0 前言
Transformer在NLP领域取得了巨大的成功, 大量研究者开始在视觉领域尝试Transformer, 并取得了很多优于传统CNN网络的结果。
这些研究大致可以归为以下几类:backbone, high/mid-level vision, low-level vision, video processing, muti-modal task, efficient transformer.
下表列出了每一个分类里面的代表性工作, 可以作为一份学习指南。
1 典型工作
1.1 backbone
下表列出了传统CNN和Transformer 在Imagenet分类上的一些典型工作和结果对比。
1.2 High/Mid-level vision
下表列出了传统CNN和Transformer 在COCO检测上的一些典型工作和结果对比。