【论文翻译】SETR:Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformer

摘要

大多数语义分割方法采用了一个带有编码器-解码器结构的全卷积网络(FCN)。编码器逐渐降低空间分辨率,并通过更大的感受野学习更抽象/语义的视觉概念。由于上下文建模对于分割至关重要,最近的努力集中在通过扩张/压缩卷积或引入注意模块来增加感受野。但是,基于编码器-解码器的FCN架构保持不变。在本文中,我们旨在通过将语义分割视为序列-序列预测任务。具体来说,我们设计了一个pure transformer(即没有卷积和分辨率降低)来将图像编码为一系列patch。随着全局上下文信息在transformer的每一层建模,这个编码器可以结合一个简单的解码器来提供一个强大的分割模型,称为SEgmentation TRansformer (SETR)。大量实验表明,SETR在ADE20K (50.28% mIoU)、Pascal Context (55.83% mIoU)上实现了最先进的性能,并在Cityscapes上取得了有竞争力的结果。特别是,我们在提交当天就获得了竞争激烈的ADE20K测试服务器排行榜的第一名。

介绍

自将全卷积网络用于语义分割以来,语义分割模型一直被基于完全卷积网络(FCN)主导。一个标准的FCN分割模型有一个编码器-解码器结构:编码器用于特征表示学习,而解码器用于编码器产生的特征表示的像素级分类。编码器由堆叠的卷积层组成,特征图的分辨率逐渐降低,编码器能够以逐渐增加的感受野学习更多的抽象/语义视觉概念。
优点:translation equivariance:尊重了成像过程的本质,支持了模型对看不见的图像数据的泛化能力
局部性:通过跨空间共享参数来控制模型的复杂性。
缺点:感受野有限,难以学习无约束场景图像中的语义分割的长期依赖信息。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值