语义分割新范式：上海 AI Lab 联合北邮、商汤提出StructToken

最新推荐文章于 2025-05-14 14:15:45 发布

深度之眼

最新推荐文章于 2025-05-14 14:15:45 发布

阅读量717

点赞数

分类专栏：深度学习干货粉丝的投稿人工智能干货文章标签：计算机视觉人工智能深度学习语义分割

本文链接：https://blog.csdn.net/weixin_42645636/article/details/130156819

版权

深度学习干货同时被 3 个专栏收录

672 篇文章

订阅专栏

人工智能干货

645 篇文章

订阅专栏

粉丝的投稿

200 篇文章

订阅专栏

本文提出了StructToken，一种结合结构先验的语义分割技术，区别于传统的静态和动态逐像素分类方法。通过Cross-Slice和Self-SliceExtraction等互动机制学习结构化Token，生成并细化类别掩码，实现对图像结构信息的保留和利用。实验结果显示，该方法在三个数据集上均达到最先进的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来源：投稿作者：xin
编辑：学姐

Motivation

本文将当前语义分割的方法分为两类，一类是静态逐像素分类方法（static per-pixel classification），另一类为动态逐像素分类方法（dynamic per-pixel classification）。目前基于静态逐像素分类的方法，仅通过探索像素表示的信息融合，扩大每个像素的接受域，使尾部的卷积网络可以更精细的逐像素分类，生成更精细的得分图。然而这类工作侧重于提高逐像素的表示能力，并没有考虑图像中的结构信息。基于动态分类的方法虽然可以通过分类器与特征映射的交互更新可学习标记，提升模型性能。虽然此类方法分类器是动态的，但它仍然作用于每个像素，逐像素分类的性质不会改变，依旧破坏了图像中的结构信息。故本文跳出原有的语义分割框架，从更拟人化的角度考虑语义分割任务。提出了带有结构先验的StructToken。与静态逐像素分类和动态逐像素分类方法不同的是，本文的方法根据结构先验为每个类生成一个粗略的掩码，然后再逐步细化该掩码。（图1展示了三种语义分割方式）