论文解读 | NeurIPS2023：揭示弱监督语义分割的原型知识

AITIME论道

于 2023-11-29 18:55:07 发布

阅读量1.2k

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247520521&idx=1&sn=7110d608198223de851810b522261bf8&chksm=e932a3afde452ab922a1d1407e6b44af44abd00c521947f8d28aad4236bc7c0efefd58d99ceb&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

个

人

信

息

张菲，上海交通大学一年级博士生，研究方向为弱监督学习，开放世界语义分割。

内

容

简

介

本文研究了弱开放词汇语义分割（WOVSS）的问题，它学习仅使用图像-文本对来分割任意类的对象。现有的工作通过引入显式分组识别来增强视觉transformer，即使用多个group token/质心对图像标记进行聚类并执行组-文本对齐。然而，这些方法在使用group token方面存在粒度不一致，作者认为这种差异是由于缺乏对每组token的详细监督。为了弥合这种粒度差距，本文探讨了从原型知识中对group token的显式监督。为此，本文提出了不可学习的原型正则化（NPR），其中从源特征估计不可学习的原型作为监督并实现group token的对比匹配。这种正则化鼓励group token以更少的冗余分割对象并捕获更全面的语义区域，从而提高紧凑性和丰富性。基于 NPR，作者提出了原型引导分割网络 (PGSeg)，该网络通过利用不同层次的图像和文本的原型源，结合了多模态正则化，逐步增强具有不同原型模式的分割能力。实验结果表明，所提方法在几个基准数据集上实现了最先进的性能。

个人主页：

https://scholar.google.com/citations?user=Omrg6UkAAAAJ&hl=zh-CN

论文链接：https://arxiv.org/pdf/2310.19001.pdf

代码链接：https://github.com/Ferenas/PGSeg

Weakly Open-Vocabulary Semantic Segmentation

最近两年随着大模型的逐渐涌现，广泛的研究兴趣逐渐从close setting过渡到让模型做更多的novel class识别的过程。本篇工作区别于之前对novel class setting的探索，如OOD、zero-shot，关键词在于vocabulary，即希望通过大语言知识搭建起训练集和测试集之间的桥梁。

如下图，在语义分割中，我们需要对图像中的每一个像素点进行标注，但是标注的成本十分高昂。本文旨在探究一种更具有挑战性的设置，即不需要进行标签级的标注，只需要使用图像-文本就实现语义上的分割，从而完成open-vocabulary的任务。

How to address WOVSS?

视觉转换(ViT)，简单地通过图像-文本对齐，在从文本中获取强大的视觉表示方面表现出了强大的性能。CVPR2022的一篇工作GroupViT中指出，普通的ViT缺乏显式的分组组件，因此无法通过文本监督实现可比的细粒度分割。为了使ViT具有潜在的分割能力，大多数方法提出将补丁级视觉特征聚类到几个可学习的group token/质心中，并处理组文本对齐以生成相应的类别。

Granularity Inconsistency in SGM

尽管有效，但这些基于SGM的方法存在与group token相关的粒度不一致的问题。在训练阶段，对这些可学习的group token进行平均，以促进所有到一的组文本对齐，而在零样本推理期间采用一对一对齐策略。这种不一致是由于WOVSS固有的弱监督造成的，否则，它们可以被正则化，例如像素级的ground truth，以像普通OVSS方法一样执行有希望的分割结果。

Finding the proper spervision

所以本篇工作的研究动机就是，如何找到合适的监督信号，监督group token。Group token的本质是一个聚类的中心，那就需要思考，什么才是好的聚类（雏群）？作者认为应该具备两个性质。第一，Compactness，即雏群越紧凑越好，以最小的噪声和冗余组成，保证不会“过分割”，将噪声点排除在外；第二，Richness,这用来防止“欠分割”，增强雏群的表征能力，指的是一个质心捕获多样化特征的能力。这两个性质引导我们从原型知识中寻找合适的监督去提升group token的聚合能力，从而实现更好的Compactness和Richness。

Non-learnable Prototypical Regularization

基于Prototypical Knowledge的方式，作者希望从中挖掘更多的信息，所以进一步提出了Non-learnable Prototypical Regularization（NPR）算法。该算法主要包括两个步骤：首先，通过GMM生成监督。GMM基于高斯分布的混合模型，以期望值最大化的方式从源特征中生成原型中心；其次，通过对比的方式将group token与生成的prototype对齐来执行原型监督。我们通过Hungarian matching的方式，进行一对一的正则，确保每个group token与自己的prototype正确匹配。

Prototypical Guidance Segmentation Network

为了将NPR算法实例化，本篇工作进一步提出了Prototypical Guidance Segmentation Network（PGSeg）模块。PGSeg 由图像编码器和文本编码器组成。通过PG单元和几个变压器层促进的顺序连接，图像编码器被组织成多个层次级别。该框架与GroupViT基本一致，主要区别在于对PG Unit中的group token进行了正则化。

此外，除了这种简单的单模态，本篇工作进一步尝试从文本中挖掘多模态的原型知识。所以，作者提出了两种的策略，即图像级NPR（I-NPR）和文本级NPR（T-NPR），为group token提供多模态正则化。

Experiments

实验部分选取的Backbone是ViT-S。下图给出了相关的实验结果。中间的表格显示，PGSeg可以在相同的训练数据量下实现SOTA性能。值得注意的是，PGSeg能够优于一些使用大型基础模型的方法，如BERT和CLIP，进一步验证了所提方法的有效性。

Ablation Study

在这一部分，作者通过鲁棒性实验验证了prototype knowledge的有效性。从下图中可以看出，prototype可以通过compactness和richerness来提高group token，前者侧重于帮助聚类更紧密地聚集，后者则丰富了特征的维度方差。可视化结果也验证了原型正则化的有效性，提高了group token的分割能力。

Comparison with SAM

最后，作者展示了一些PGSeg和SAM之间的比较，SAM是一个强大的分割器，训练了110亿张图像和10亿个准确注释的蒙版。与SAM相比，尽管这些模型在训练数据量上存在巨大差距，但是，PGSeg可以在不需要实例级识别的情况下捕获整个对象，并且WOVSS仍然是一个值得深入探索的研究课题。

Conclusion

本篇工作提出了NPR，它探索和利用原型知识作为group token在分割对象方面的有效监督。鼓励这种显式正则化为group token带来紧凑而丰富的特征表示；本文提出了PGSeg，这是一种简单而有效的分割架构，它从图像和文本中提取原型知识，以规范不同层次的group token，逐步引导group token以显式的方式分割；在多个基准上的广泛结果证明了所提方法的优越性和有效性，在PASCAL VOC12和COCO上分别达到53.2% mIoU和28.7% mIoU，产生了新的最先进的性能。值得注意的是，PGSeg模型仅在CC12M数据集上训练，在PASCAL VOC12和COCO上的mIoU方面分别超过了一些利用CLIP和BERT等大型基础模型的先进方法，在PASCAL VOC12和COCO上的mIoU方面分别提高了14.5%和5.2%。

往期精彩文章推荐