声明
不定期更新自己精度论文,通俗易懂,初级小白也可以理解
涉及范围:深度学习方向,包括 CV、NLP、Data Fusion、Digital Twin
论文题目:
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
论文链接:https://arxiv.org/abs/2012.15840v3
论文代码:https://github.com/fudan-zvg/SETR
发表时间:2021年7月
创新点
1、从序列到序列的学习角度重新定义了图像语义分割问题,为主导的编码器-解码器 FCN 模型设计提供了一种替代方案,即 SEgmentation TRansformer(SETR)
2、利用 Transformer 框架通过对图像进行序列化来实现全注意力特征表示编码器
3、构建和设计了不同架构的解码器
Abstract
最近的语义分割方法采用具有编码解码器架构的全卷积网络 (FCN)。编码器逐渐降低空间分辨率并学习更多具有更大感受野的抽象/语义视觉概念。由于上下文建模对于分割至关重要,因此最新的努力集中在通过扩张/空洞卷积或插入注意力模块来增加感受野。然而,基于编码器-解码器的 FCN 架构保持不变。
在本文中,我们旨在通过将语义分割视为序列到序列的预测任务来提供另一种视角。具体来说,我们部署了一个纯转换器(即没有卷积和分辨率降低)来将图像编码为一系列补丁。借助在转换器的每一层中建模的全局上下文,该编码器可以与简单的解码器相结合,以提供强大的分割模型,称为 SEgmentation TRansformer (SETR)。 大量实验表明,SETR 在 ADE20K (50.28% mIoU)、Pascal Context (55.83% mIoU) 和 Cityscapes 上取得了竞争性结果。特别是在提交当天,我们在竞争激烈的ADE20K测试服务器排行榜中获得了第一名。
Method
SETR 的示意图如下
首先,将图像分割成固定大小的块,线性嵌入每个块,形成补丁序列;
然后,添加位置嵌入 Position Embeding,并将生成的向量序列提供给标准的 Transformer 编码器;
最后,为了执行逐像素分割,作者引入了不同的解码器设计。
图(b)渐进式上采样(产生称为 SETR-PUP 的变体)
图(c)多级特征聚合(一种称为 SETR-MLA 的变体)
至关重要的是,在编码 Transformer 的每一层都没有空间分辨率的下采样,而是全局上下文建模,从而为语义分割问题提供了一个全新的视角。
Decoder designs
作者引入了三种不同的解码器设计来执行像素级分割。
(1) Naive upsampling (Naive)
首先,这个简单的解码器首先将 Transformer 特征 Z 投影到类别编号的维度。为此,作者采用了一个简单的 2 层网络架构:1 × 1 conv + sync batch norm (w/ ReLU) + 1 × 1 conv;
之后,简单地将输出双线性上采样到完整图像分辨率;
然后,是具有像素级交叉熵损失的分类层。 当使用这个解码器时,称这个模型表示为 SETR-Naive。
(2) Progressive UPsampling (PUP)
代替可能引入噪声预测的一步升级,作者考虑了一种渐进式上采样策略,该策略交替转换卷积层和上采样操作。为了最大限度地减轻对抗效应,将上采样限制为 2 倍。图 (b) 给出了这个过程的更多细节。
(3) Multi-Level feature Aggregation (MLA)
作者将来自 M 层的特征表示 {Zm} 作为输入,这些特征表示均匀分布在各层间;
然后部署 M 个通道,每个通道都专注于在自己的通道中;
为了增强不同通道之间的交互,作者在第一层之后通过元素添加引入了自上而下的聚合设计,在逐元素添加特征之后应用额外的 3×3 卷积;
在第三层之后,作者通过通道级从所有流中获得融合特征,然后将其双线性上采样 4 倍至全分辨率。
Experiments
实验目标:ADE20K 数据集的最新比较
实验结果:SETR-MLA 效果明显
实验目标:Pascal Context 数据集的最新比较
实验结果:SETR-MLA 效果优秀