整体网络结构
如下图,模型本质上是一个ViT+Decoder结构。
文中提出了三种decoder的设计:
a.将Transformer输出的特征维度降到分类类别数后经过双线性上采样恢复原分辨率。
b.交替使用卷积层和两倍上采样操作。为了从H/16 × W/16 × 1024
恢复到H × W × 19
(19是cityscape的类别数) 需要4次操作,以恢复到原分辨率。
c. 首先将Transformer的输出{Z1,Z2,Z3…ZLe}
均匀分成M等份,每份取一个特征向量。如下图,24个transformer的输出均分成4份,每份取最后一个,即{Z6,Z12,Z18,Z24}
.后面的Decoder只处理这些取出的向量。