SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
Abstract
方法
- Transformers与轻量级多层感知器(MLP)统一起来
吸引人的特点
-
- 分层结构的transformers编码器,并且不需要位置编码
-
从而避免了位置编码的内插。
当测试分辨率与训练分辨率不同时,位置编码会导致性能下降。- 位置编码的缺点;
-
2.避免使用复杂的解码器,MLP聚合了不同层的信息
- 结合了局部和全局注意力来呈现强大的表征
效果
-
网络更小,效果也佳
-
定量评估数据集
- Cityscapes validation set
- Cityscapes-C
- ADE20K
-
Code
- github.com/NVlabs/SegFormer.
1 Introduction
开创性的工作
- FCN
语义分割的两条主线
-
设计主干
- 主干的演变极大地推动了语义分割的性能边界
-
结构化预测问题
-
设计模块和操作,有效捕捉上下文信息
- 代表性例子:空洞卷积,增加了感受野
-
transformer引入计算机视觉
-
ViT
- 图像分类
-
SETR