论文解读 | NeurIPS2023:揭示弱监督语义分割的原型知识

点击蓝字

e40a34184621b14217b34494569bd738.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!


318d2640f7c9461f9b7ddb4a357f7473.png

b3b20f47d57da62f7d5492237213b1fc.png

2c33712699590dacadc2d0885714cd7b.png

张菲,上海交通大学一年级博士生,研究方向为弱监督学习,开放世界语义分割。

849fcf470ffc201967c4a5e8a5655751.png

63aad81321df8f57058b994fd9ffdb17.png

7574bb82a81d3e2d67977b00775f05db.png

6c9598f1518d648b8d2ad0cf054dfe49.png

本文研究了弱开放词汇语义分割(WOVSS)的问题,它学习仅使用图像-文本对来分割任意类的对象。现有的工作通过引入显式分组识别来增强视觉transformer,即使用多个group token/质心对图像标记进行聚类并执行组-文本对齐。然而,这些方法在使用group token方面存在粒度不一致,作者认为这种差异是由于缺乏对每组token的详细监督。为了弥合这种粒度差距,本文探讨了从原型知识中对group token的显式监督。为此,本文提出了不可学习的原型正则化(NPR),其中从源特征估计不可学习的原型作为监督并实现group token的对比匹配。这种正则化鼓励group token以更少的冗余分割对象并捕获更全面的语义区域,从而提高紧凑性和丰富性。基于 NPR,作者提出了原型引导分割网络 (PGSeg),该网络通过利用不同层次的图像和文本的原型源,结合了多模态正则化,逐步增强具有不同原型模式的分割能力。实验结果表明,所提方法在几个基准数据集上实现了最先进的性能。

个人主页:

https://scholar.google.com/citations?user=Omrg6UkAAAAJ&hl=zh-CN

论文链接:https://arxiv.org/pdf/2310.19001.pdf

代码链接:https://github.com/Ferenas/PGSeg

1

Weakly Open-Vocabulary Semantic Segmentation

最近两年随着大模型的逐渐涌现,广泛的研究兴趣逐渐从close setting过渡到让模型做更多的novel class识别的过程。本篇工作区别于之前对novel class setting的探索,如OOD、zero-shot,关键词在于vocabulary,即希望通过大语言知识搭建起训练集和测试集之间的桥梁。

如下图,在语义分割中,我们需要对图像中的每一个像素点进行标注,但是标注的成本十分高昂。本文旨在探究一种更具有挑战性的设置,即不需要进行标签级的标注,只需要使用图像-文本就实现语义上的分割,从而完成open-vocabulary的任务。

1a75600d4b61b0d185ecdf2f6b8df4ed.png

2

How to address WOVSS?

视觉转换(ViT),简单地通过图像-文本对齐,在从文本中获取强大的视觉表示方面表现出了强大的性能。CVPR2022的一篇工作GroupViT中指出,普通的ViT缺乏显式的分组组件,因此无法通过文本监督实现可比的细粒度分割。为了使ViT具有潜在的分割能力,大多数方法提出将补丁级视觉特征聚类到几个可学习的group token/质心中,并处理组文本对齐以生成相应的类别。

853d41dabffb28f64b70be1ffb7913a0.png

3

Granularity Inconsistency in SGM

尽管有效,但这些基于SGM的方法存在与group token相关的粒度不一致的问题。在训练阶段,对这些可学习的group token进行平均,以促进所有到一的组文本对齐,而在零样本推理期间采用一对一对齐策略。这种不一致是由于WOVSS固有的弱监督造成的,否则,它们可以被正则化,例如像素级的ground truth,以像普通OVSS方法一样执行有希望的分割结果。

eef4db307ff63885708924f6b0e9f2ce.png

4

Finding the proper spervision

所以本篇工作的研究动机就是,如何找到合适的监督信号,监督group token。Group token的本质是一个聚类的中心,那就需要思考,什么才是好的聚类(雏群)?作者认为应该具备两个性质。第一,Compactness,即雏群越紧凑越好,以最小的噪声和冗余组成,保证不会“过分割”,将噪声点排除在外;第二,Richness,这用来防止“欠分割”,增强雏群的表征能力,指的是一个质心捕获多样化特征的能力。这两个性质引导我们从原型知识中寻找合适的监督去提升group token的聚合能力,从而实现更好的Compactness和Richness。

28ea04ae530145dd330aa036642458d0.png

5

Non-learnable Prototypical Regularization

基于Prototypical Knowledge的方式,作者希望从中挖掘更多的信息,所以进一步提出了Non-learnable Prototypical Regularization(NPR)算法。该算法主要包括两个步骤:首先,通过GMM生成监督。GMM基于高斯分布的混合模型,以期望值最大化的方式从源特征中生成原型中心;其次,通过对比的方式将group token与生成的prototype对齐来执行原型监督。我们通过Hungarian matching的方式,进行一对一的正则,确保每个group token与自己的prototype正确匹配。

dc57a9daa598eecebdad66e8babbd7b9.png

6

Prototypical Guidance Segmentation Network

为了将NPR算法实例化,本篇工作进一步提出了Prototypical Guidance Segmentation Network(PGSeg)模块。PGSeg 由图像编码器和文本编码器组成。通过PG单元和几个变压器层促进的顺序连接,图像编码器被组织成多个层次级别。该框架与GroupViT基本一致,主要区别在于对PG Unit中的group token进行了正则化。

此外,除了这种简单的单模态,本篇工作进一步尝试从文本中挖掘多模态的原型知识。所以,作者提出了两种的策略,即图像级NPR(I-NPR)和文本级NPR(T-NPR),为group token提供多模态正则化。

a60dbae5e2e493398406fce9f4727538.png

Experiments

实验部分选取的Backbone是ViT-S。下图给出了相关的实验结果。中间的表格显示,PGSeg可以在相同的训练数据量下实现SOTA性能。值得注意的是,PGSeg能够优于一些使用大型基础模型的方法,如BERT和CLIP,进一步验证了所提方法的有效性。

aad42158d01fc888793e8b5b29a416c6.png

7

Ablation Study

在这一部分,作者通过鲁棒性实验验证了prototype knowledge的有效性。从下图中可以看出,prototype可以通过compactness和richerness来提高group token,前者侧重于帮助聚类更紧密地聚集,后者则丰富了特征的维度方差。可视化结果也验证了原型正则化的有效性,提高了group token的分割能力。

740288e1557a085903d11ba63c7becb8.png

8

Comparison with SAM 

最后,作者展示了一些PGSeg和SAM之间的比较,SAM是一个强大的分割器,训练了110亿张图像和10亿个准确注释的蒙版。与SAM相比,尽管这些模型在训练数据量上存在巨大差距,但是,PGSeg可以在不需要实例级识别的情况下捕获整个对象,并且WOVSS仍然是一个值得深入探索的研究课题。

5f77504c3ebe4ecde2542d4c286ea4bd.png

9

Conclusion

本篇工作提出了NPR,它探索和利用原型知识作为group token在分割对象方面的有效监督。鼓励这种显式正则化为group token带来紧凑而丰富的特征表示;本文提出了PGSeg,这是一种简单而有效的分割架构,它从图像和文本中提取原型知识,以规范不同层次的group token,逐步引导group token以显式的方式分割;在多个基准上的广泛结果证明了所提方法的优越性和有效性,在PASCAL VOC12和COCO上分别达到53.2% mIoU和28.7% mIoU,产生了新的最先进的性能。值得注意的是,PGSeg模型仅在CC12M数据集上训练,在PASCAL VOC12和COCO上的mIoU方面分别超过了一些利用CLIP和BERT等大型基础模型的先进方法,在PASCAL VOC12和COCO上的mIoU方面分别提高了14.5%和5.2%。

往期精彩文章推荐

2927f919130ef6d92bf4b04fc2deaf7a.jpeg

关注我们 记得星标

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1400多位海内外讲者,举办了逾600场活动,超600万人次观看。

2e8665e9b20cfc738472fdebf0e4d2ca.png

我知道你

在看

~

fa7111fc57e120864c48d5821efd738c.gif

点击 阅读原文 跳转至"1:20:20"查看回放!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值