【论文翻译】SETR:Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformer

最新推荐文章于 2024-08-05 10:42:18 发布

栗子菜菜

最新推荐文章于 2024-08-05 10:42:18 发布

阅读量652

点赞数

分类专栏： Transformer 文章标签：计算机视觉分类算法神经网络

本文链接：https://blog.csdn.net/sinat_38974831/article/details/119531437

版权

SETR

摘要
介绍
相关工作
- 语义分割
- Transformer
模型设计

摘要

大多数语义分割方法采用了一个带有编码器-解码器结构的全卷积网络(FCN)。编码器逐渐降低空间分辨率，并通过更大的感受野学习更抽象/语义的视觉概念。由于上下文建模对于分割至关重要，最近的努力集中在通过扩张/压缩卷积或引入注意模块来增加感受野。但是，基于编码器-解码器的FCN架构保持不变。在本文中，我们旨在通过将语义分割视为序列-序列预测任务。具体来说，我们设计了一个pure transformer(即没有卷积和分辨率降低)来将图像编码为一系列patch。随着全局上下文信息在transformer的每一层建模，这个编码器可以结合一个简单的解码器来提供一个强大的分割模型，称为SEgmentation TRansformer (SETR)。大量实验表明，SETR在ADE20K (50.28% mIoU)、Pascal Context (55.83% mIoU)上实现了最先进的性能，并在Cityscapes上取得了有竞争力的结果。特别是，我们在提交当天就获得了竞争激烈的ADE20K测试服务器排行榜的第一名。

介绍

自将全卷积网络用于语义分割以来，语义分割模型一直被基于完全卷积网络（FCN）主导。一个标准的FCN分割模型有一个编码器-解码器结构：编码器用于特征表示学习，而解码器用于编码器产生的特征表示的像素级分类。编码器由堆叠的卷积层组成，特征图的分辨率逐渐降低，编码器能够以逐渐增加的感受野学习更多的抽象/语义视觉概念。
优点：translation equivariance：尊重了成像过程的本质，支持了模型对看不见的图像数据的泛化能力
局部性：通过跨空间共享参数来控制模型的复杂性。
缺点：感受野有限，难以学习无约束场景图像中的语义分割的长期依赖信息。

最低0.47元/天解锁文章

栗子菜菜

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【论文翻译】SETR:Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformer

SETR摘要介绍相关工作语义分割Transformer模型设计FCN-based semantic segmentationSegmentation transformers (SETR)Image-sequence摘要大多数语义分割方法采用了一个带有编码器-解码器结构的全卷积网络(FCN)。编码器逐渐降低空间分辨率，并通过更大的感受野学习更抽象/语义的视觉概念。由于上下文建模对于分割至关重要，最近的努力集中在通过扩张/压缩卷积或引入注意模块来增加感受野。但是，基于编码器-解码器的FCN架构保持不变。在
复制链接

扫一扫

专栏目录