【论文笔记】Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspectivewith Transformers

最新推荐文章于 2023-07-20 18:17:25 发布

来自γ星的赛亚人

最新推荐文章于 2023-07-20 18:17:25 发布

阅读量1.6k

点赞数 2

分类专栏： Vision Transformer 论文笔记文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58678659/article/details/124488146

版权

论文笔记同时被 2 个专栏收录

47 篇文章 7 订阅

订阅专栏

Vision Transformer

19 篇文章 12 订阅

订阅专栏

声明

不定期更新自己精度论文，通俗易懂，初级小白也可以理解

涉及范围：深度学习方向，包括 CV、NLP、Data Fusion、Digital Twin

论文题目：

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

论文链接：https://arxiv.org/abs/2012.15840v3

论文代码：https://github.com/fudan-zvg/SETR

发表时间：2021年7月

创新点

1、从序列到序列的学习角度重新定义了图像语义分割问题，为主导的编码器-解码器 FCN 模型设计提供了一种替代方案，即 SEgmentation TRansformer（SETR）

2、利用 Transformer 框架通过对图像进行序列化来实现全注意力特征表示编码器

3、构建和设计了不同架构的解码器

Abstract

最近的语义分割方法采用具有编码解码器架构的全卷积网络 (FCN)。编码器逐渐降低空间分辨率并学习更多具有更大感受野的抽象/语义视觉概念。由于上下文建模对于分割至关重要，因此最新的努力集中在通过扩张/空洞卷积或插入注意力模块来增加感受野。然而，基于编码器-解码器的 FCN 架构保持不变。

在本文中，我们旨在通过将语义分割视为序列到序列的预测任务来提供另一种视角。具体来说，我们部署了一个纯转换器（即没有卷积和分辨率降低）来将图像编码为一系列补丁。借助在转换器的每一层中建模的全局上下文，该编码器可以与简单的解码器相结合，以提供强大的分割模型，称为 SEgmentation TRansformer (SETR)。大量实验表明，SETR 在 ADE20K (50.28% mIoU)、Pascal Context (55.83% mIoU) 和 Cityscapes 上取得了竞争性结果。特别是在提交当天，我们在竞争激烈的ADE20K测试服务器排行榜中获得了第一名。

Method

SETR 的示意图如下

首先，将图像分割成固定大小的块，线性嵌入每个块，形成补丁序列；

然后，添加位置嵌入 Position Embeding，并将生成的向量序列提供给标准的 Transformer 编码器；

最后，为了执行逐像素分割，作者引入了不同的解码器设计。

图（b）渐进式上采样（产生称为 SETR-PUP 的变体）

图（c）多级特征聚合（一种称为 SETR-MLA 的变体）

至关重要的是，在编码 Transformer 的每一层都没有空间分辨率的下采样，而是全局上下文建模，从而为语义分割问题提供了一个全新的视角。

Decoder designs

作者引入了三种不同的解码器设计来执行像素级分割。

(1) Naive upsampling (Naive)

首先，这个简单的解码器首先将 Transformer 特征 Z 投影到类别编号的维度。为此，作者采用了一个简单的 2 层网络架构：1 × 1 conv + sync batch norm (w/ ReLU) + 1 × 1 conv；

之后，简单地将输出双线性上采样到完整图像分辨率；

然后，是具有像素级交叉熵损失的分类层。当使用这个解码器时，称这个模型表示为 SETR-Naive。

(2) Progressive UPsampling (PUP)

代替可能引入噪声预测的一步升级，作者考虑了一种渐进式上采样策略，该策略交替转换卷积层和上采样操作。为了最大限度地减轻对抗效应，将上采样限制为 2 倍。图 (b) 给出了这个过程的更多细节。

(3) Multi-Level feature Aggregation (MLA)

作者将来自 M 层的特征表示 {Zm} 作为输入，这些特征表示均匀分布在各层间；

然后部署 M 个通道，每个通道都专注于在自己的通道中；

为了增强不同通道之间的交互，作者在第一层之后通过元素添加引入了自上而下的聚合设计，在逐元素添加特征之后应用额外的 3×3 卷积；

在第三层之后，作者通过通道级从所有流中获得融合特征，然后将其双线性上采样 4 倍至全分辨率。

Experiments

实验目标：ADE20K 数据集的最新比较

实验结果：SETR-MLA 效果明显

实验目标：Pascal Context 数据集的最新比较

实验结果：SETR-MLA 效果优秀

来自γ星的赛亚人

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文笔记】Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspectivewith Transformers

从序列到序列的学习角度重新定义了图像语义分割问题，为主导的编码器-解码器 FCN 模型设计提供了一种替代方案，即 SEgmentation TRansformer
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

来自γ星的赛亚人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。