16.SegNext
1.创新点:
1.确定了一个好的语义分割模型应该拥有的特征,并提出了一种新的定制网络架构,称为SegNeXt,通过多尺度卷积特征来唤起空间注意力。
2.我们表明,具有简单和廉价卷积的编码器仍然可以比视觉转换器表现得更好,特别是在处理对象细节时,同时它需要更少的计算成本。
3.我们的方法在各种分割基准上大幅提高了最先进的语义分割方法的性能,包括ADE20K, cityscape, COCO-Stuff, Pascal VOC, Pascal Context和iSAID。
2.网络结构:
MSCA包含三个部分:1.聚合局部信息的深度卷积;2.捕获多尺度上下文的多分支深度条带卷积;3.模拟不同通道之间关系的1 × 1卷积。
条带卷积:轻量级卷积。为了模拟核大小为7 × 7的标准2D卷积,我们只需要一对7× 1和1 × 7的卷积。另一方面,分割场景中也会出现一些条状物体,如人、电线杆等。因此,条带卷积可以作为网格卷积的补充,并有助于提取条带状特征
除解码器部分外,主要由卷积运算组成。
decoder聚合了最后三个阶段的特征,并使用轻量级的Hamburger[21]来进一步建模全局上下文。结合强大的卷积编码器,发现使用轻量级解码器可以提高性能-计算效率。
3.实验对比:
4.消融实验:
5.学习总结:
1. 卷积注意是一种比变压器中的自注意机制更有效的上下文信息编码方式。
2. 在相同或更少的计算量下,与ADE20K数据集上最先进的方法相比,SegNeXt实现了约2.0% mIoU的改进。
3. 语义分割方法中有利于提高模型性能的设计。1.强大的骨干网络作为编码器。与以往基于cnn的模型相比,基于变压器的模型的性能提升大多来自于更强大的骨干网。2.多尺度信息交互。与图像分类任务主要识别单个对象不同,语义分割是一种密集的预测任务,因此需要处理单个图像中不同大小的对象。3.空间注意力。空间注意力允许模型通过语义区域内区域的优先级来执行分割。4.计算复杂度低。在处理来自遥感和城市场景的高分辨率图像时,这一点尤其重要。
4.编码器中的每个块,更新了传统卷积块的设计,引入了一种高效的注意力机制,并采用了更便宜和更大的内核卷积,并利用多尺度卷积特征,通过之后的简单元素乘法来唤起空间注意力。在空间信息编码中,发现这种简单的空间注意构建方法比标准卷积和自我注意都更有效。对于解码器,从不同阶段收集多层次的特征,并使用Hamburger进一步提取全局上下文。
5. SegNeXt实现了分割性能和计算复杂度之间的最佳平衡。
6.于本论文最相关的工作是将一个k × k卷积分解为一对k × 1和1× k卷积。虽然这项工作已经证明了大卷积核在语义分割中的作用,但它忽略了多尺度感受域的重要性,没有考虑如何利用大卷积核提取的这些多尺度特征以注意力的形式进行分割。
7. 目前比较流行的视觉transformer往往忽略了信道维度的适应性。
8. 在MSCAN的每个构建块中,使用批处理归一化而不是层归一化,因为发现批处理归一化可以获得更多的分割性能。
9.即使没有任何特定的软件或硬件加速,SegNeXt-T实现每秒25帧(FPS)。
5.启发:
1.将该方法在大模型上和不同下游任务上进行测试验证。