Vision Transformer综述

0 前言

Transformer在NLP领域取得了巨大的成功, 大量研究者开始在视觉领域尝试Transformer, 并取得了很多优于传统CNN网络的结果。
这些研究大致可以归为以下几类:backbone, high/mid-level vision, low-level vision, video processing, muti-modal task, efficient transformer.

下表列出了每一个分类里面的代表性工作, 可以作为一份学习指南。
在这里插入图片描述

1 典型工作

1.1 backbone

下表列出了传统CNN和Transformer 在Imagenet分类上的一些典型工作和结果对比。
在这里插入图片描述

1.2 High/Mid-level vision

下表列出了传统CNN和Transformer 在COCO检测上的一些典型工作和结果对比。
在这里插入图片描述

2 参考

[1] A survey on Vision Transformer

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值