摘要
近年来,基于变压器的模型因其在空间信息编码中的自注意效率而占据了语义分割领域的主导地位。 本文证明卷积注意是一种比transformers中的自注意机制更有效的编码上下文信息的方法。 通过重新审视成功的分割模型所具有的特性,发现了导致分割模型性能提高的几个关键因素。 这促使我们设计一种新颖的卷积注意力网络,它使用廉价的卷积运算。基于CNN的语义分割模型Segnext,一种用于语义分割的简单卷积网络架构。
分割工作不同模型所具有的几个关键特性
(i)一个强大的骨干网作为编码器。 与以往的基于CNN的模型相比,基于变压器的模型的性能提高主要来自于更强大的骨干网。 (ii)多尺度信息交互。 与图像分类任务主要识别单个对象不同,语义分割是一个密集的预测任务,因此需要处理单个图像中不同大小的对象。 ㈢空间注意。 空间关注允许模型通过语义区域内区域的优先级来执行分割。 (iv)计算复杂度低。 这在处理来自遥感和城市场景的高分辨率图像时尤为关键。
SegNeXt
对于编码器中的每个块,我们更新了传统卷积块的设计,并利用多尺度卷积特征通过一个简单的元素相乘来唤起空间注意。 在空间信息编码中,我们发现这样一种简单的建立空间注意的方法比标准卷积和自我注意都更有效。 对于解码器,我们从不同阶段收集多层次特征,并使用Hamburger进一步提取全局上下文。 在此设置下,我们的方法可以获得从局部到全局的多尺度上下文,实现空间和信道维度的适应性,以及从低级到高级的信息聚合。<