年份 | 会议/期刊 | 标题 | 内容 | 领域 | 架构图 |
2017 | NIPS | Attention is all you need(Transformer) | 贡献:提出了一种新的简单的网络架构Transformer,它完全基于注意力机制,完全不需要递归和卷积。 做法:Encoder and Decoder Stacks,self-attention,Masked Multi-Head Attention, | nlp | |
2020 | ECCV | End-to-End Object Detection with Transformers (DETR) | 贡献:a set-based global loss that forces unique predictions via bipartite matching, and a transformer encoder-decoder architecture。 做法:Object detection set prediction loss(最优二分匹配匈牙利算法),CNN+transformer架构 | 目标检测 | |
2021 | ICLR | AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(Vit) | 贡献:直接将transformer应用于视觉,不做过多的修改 做法: 1. split an image into patches,每个patch是16x16,因此224x224的图片变成14x14的序列 2. 将每一个patch通过一个fc layer,获得一个linear embedding (将patch看成序列中的单词) 3. 有监督的训练方式 | 分类 | |
2021 | ICCV | Swin Transformer: Hierarchical Vision Transformer using Shifted Windows | 贡献:提出了一种基于VIT的计算机视觉的通用主干框架 做法: 1.通过分层结构来处理图片 2.window self-attention 3.采取移动窗口的方式,允许跨窗口连接。 | cv backbone | |
2021 | MICCAI | CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation | 1.我们第一个来探索Transformer 的3D医学图像分割,特别是在计算和空间上的效率方法。【transformer优化技巧:可变形注意力】 2.我们引入了可变形自注意力机制来减少Transformer的复杂性,因此使得我们的CoTr可以使用多尺度特征来建模长程依赖。 3 我们的CoTr在3D多器官分割任务上优于基于CNN的、基于Transformer、以及混合模型。 | 3D医学图像分割 | |
2022 | WACV | UNETR: Transformers for 3D Medical Image Segmentation | 利用纯Transformers作为编码器来学习输入量的序列表示并有效地捕获全局多尺度信息。同时也遵循了编码器和解码器的成功的“U型”网络设计,Transformers编码器通过不同分辨率的跳跃连接直接连接到解码器,以计算最终的语义分段输出。 | 3D医学图像分割 |
Transformer在CV上的应用-论文总结
于 2023-03-22 17:04:17 首次发布