Transformer在CV上的应用-论文总结

bulibuli蛋

已于 2023-03-22 17:28:53 修改

阅读量531

点赞数

分类专栏： # 论文笔记文章标签： transformer 深度学习计算机视觉

于 2023-03-22 17:04:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LarsGyonX/article/details/129714074

版权

论文笔记专栏收录该内容

5 篇文章

订阅专栏

年份	会议/期刊	标题	内容	领域	架构图
2017	NIPS	Attention is all you need(Transformer)	贡献:提出了一种新的简单的网络架构Transformer，它完全基于注意力机制，完全不需要递归和卷积。做法：Encoder and Decoder Stacks，self-attention，Masked Multi-Head Attention,	nlp
2020	ECCV	End-to-End Object Detection with Transformers (DETR)	贡献:a set-based global loss that forces unique predictions via bipartite matching, and a transformer encoder-decoder architecture。做法：Object detection set prediction loss（最优二分匹配匈牙利算法），CNN+transformer架构	目标检测
2021	ICLR	AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(Vit)	贡献：直接将transformer应用于视觉，不做过多的修改做法： 1. split an image into patches，每个patch是16x16，因此224x224的图片变成14x14的序列 2. 将每一个patch通过一个fc layer，获得一个linear embedding （将patch看成序列中的单词） 3. 有监督的训练方式	分类
2021	ICCV	Swin Transformer: Hierarchical Vision Transformer using Shifted Windows	贡献：提出了一种基于VIT的计算机视觉的通用主干框架做法： 1.通过分层结构来处理图片 2.window self-attention 3.采取移动窗口的方式，允许跨窗口连接。	cv backbone
2021	MICCAI	CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation	1.我们第一个来探索Transformer 的3D医学图像分割，特别是在计算和空间上的效率方法。【transformer优化技巧：可变形注意力】 2.我们引入了可变形自注意力机制来减少Transformer的复杂性，因此使得我们的CoTr可以使用多尺度特征来建模长程依赖。 3 我们的CoTr在3D多器官分割任务上优于基于CNN的、基于Transformer、以及混合模型。	3D医学图像分割
2022	WACV	UNETR: Transformers for 3D Medical Image Segmentation	利用纯Transformers作为编码器来学习输入量的序列表示并有效地捕获全局多尺度信息。同时也遵循了编码器和解码器的成功的“U型”网络设计,Transformers编码器通过不同分辨率的跳跃连接直接连接到解码器，以计算最终的语义分段输出。	3D医学图像分割

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。