点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
个
人
信
息
张菲,上海交通大学一年级博士生,研究方向为弱监督学习,开放世界语义分割。
内
容
简
介
本文研究了弱开放词汇语义分割(WOVSS)的问题,它学习仅使用图像-文本对来分割任意类的对象。现有的工作通过引入显式分组识别来增强视觉transformer,即使用多个group token/质心对图像标记进行聚类并执行组-文本对齐。然而,这些方法在使用group token方面存在粒度不一致,作者认为这种差异是由于缺乏对每组token的详细监督。为了弥合这种粒度差距,本文探讨了从原型知识中对group token的显式监督。为此,本文提出了不可学习的原型正则化(NPR),其中从源特征估计不可学习的原型作为监督并实现group token的对比匹配。这种正则化鼓励group token以更少的冗余分割对象并捕获更全面的语义区域,从而提高紧凑性和丰富性。基于 NPR,作者提出了原型引导分割网络 (PGSeg),该网络通过利用不同层次的图像和文本的原型源,结合了多模态正则化,逐步增强具有不同原型模式的分割能力。实验结果表明,所提方法在几个基准数据集上实现了最先进的性能。
个人主页:
https://scholar.google.com/citations?user=Omrg6UkAAAAJ&hl=zh-CN
论文链接:https://arxiv.org/pdf/2310.19001.pdf
代码链接:https://github.com/Ferenas/PGSeg
1
Weakly Open-Vocabulary Semantic Segmentation
最近两年随着大模型的逐渐涌现,广泛的研究兴趣逐渐从close setting过渡到让模型做更多的novel class识别的过程。本篇工作区别于之前对novel class setting的探索,如OOD、zero-shot,关键词在于vocabulary,即希望通过大语言知识搭建起训练集和测试集之间的桥梁。
如下图,在语义分割中,我们需要对图像中的每一个像素点进行标注,但是标注的成本十分高昂。本文旨在探究一种更具有挑战性的设置,即不需要进行标签级的标注,只需要使用图像-文本就实现语义上的分割,从而完成open-vocabulary的任务。
2
How to address WOVSS?
视觉转换(ViT),简单地通过图像-文本对齐,在从文本中获取强大的视觉表示方面表现出了强大的性能。CVPR2022的一篇工作GroupViT中指出,普通的ViT缺乏显式的分组组件,因此无法通过文本监督实现可比的细粒度分割。为了使ViT具有潜在的分割能力,大多数方法提出将补丁级视觉特征聚类到几个可学习的group token/质心中,并处理组文本对齐以生成相应的类别。
3
Granularity Inconsistency in SGM
尽管有效,但这些基于SGM的方法存在与group token相关的粒度不一致的问题。在训练阶段,对这些可学习的group token进行平均,以促进所有到一的组文本对齐,而在零样本推理期间采用一对一对齐策略。这种不一致是由于WOVSS固有的弱监督造成的,否则,它们可以被正则化,例如像素级的ground truth,以像普通OVSS方法一样执行有希望的分割结果。
4
Finding the proper spervision
所以本篇工作的研究动机就是,如何找到合适的监督信号,监督group token。Group token的本质是一个聚类的中心,那就需要思考,什么才是好的聚类(雏群)?作者认为应该具备两个性质。第一,Compactness,即雏群越紧凑越好,以最小的噪声和冗余组成,保证不会“过分割”,将噪声点排除在外;第二,Richness,这用来防止“欠分割”,增强雏群的表征能力,指的是一个质心捕获多样化特征的能力。这两个性质引导我们从原型知识中寻找合适的监督去提升group token的聚合能力,从而实现更好的Compactness和Richness。
5
Non-learnable Prototypical Regularization
基于Prototypical Knowledge的方式,作者希望从中挖掘更多的信息,所以进一步提出了Non-learnable Prototypical Regularization(NPR)算法。该算法主要包括两个步骤:首先,通过GMM生成监督。GMM基于高斯分布的混合模型,以期望值最大化的方式从源特征中生成原型中心;其次,通过对比的方式将group token与生成的prototype对齐来执行原型监督。我们通过Hungarian matching的方式,进行一对一的正则,确保每个group token与自己的prototype正确匹配。
6
Prototypical Guidance Segmentation Network
为了将NPR算法实例化,本篇工作进一步提出了Prototypical Guidance Segmentation Network(PGSeg)模块。PGSeg 由图像编码器和文本编码器组成。通过PG单元和几个变压器层促进的顺序连接,图像编码器被组织成多个层次级别。该框架与GroupViT基本一致,主要区别在于对PG Unit中的group token进行了正则化。
此外,除了这种简单的单模态,本篇工作进一步尝试从文本中挖掘多模态的原型知识。所以,作者提出了两种的策略,即图像级NPR(I-NPR)和文本级NPR(T-NPR),为group token提供多模态正则化。
Experiments
实验部分选取的Backbone是ViT-S。下图给出了相关的实验结果。中间的表格显示,PGSeg可以在相同的训练数据量下实现SOTA性能。值得注意的是,PGSeg能够优于一些使用大型基础模型的方法,如BERT和CLIP,进一步验证了所提方法的有效性。
7
Ablation Study
在这一部分,作者通过鲁棒性实验验证了prototype knowledge的有效性。从下图中可以看出,prototype可以通过compactness和richerness来提高group token,前者侧重于帮助聚类更紧密地聚集,后者则丰富了特征的维度方差。可视化结果也验证了原型正则化的有效性,提高了group token的分割能力。
8
Comparison with SAM
最后,作者展示了一些PGSeg和SAM之间的比较,SAM是一个强大的分割器,训练了110亿张图像和10亿个准确注释的蒙版。与SAM相比,尽管这些模型在训练数据量上存在巨大差距,但是,PGSeg可以在不需要实例级识别的情况下捕获整个对象,并且WOVSS仍然是一个值得深入探索的研究课题。
9
Conclusion
本篇工作提出了NPR,它探索和利用原型知识作为group token在分割对象方面的有效监督。鼓励这种显式正则化为group token带来紧凑而丰富的特征表示;本文提出了PGSeg,这是一种简单而有效的分割架构,它从图像和文本中提取原型知识,以规范不同层次的group token,逐步引导group token以显式的方式分割;在多个基准上的广泛结果证明了所提方法的优越性和有效性,在PASCAL VOC12和COCO上分别达到53.2% mIoU和28.7% mIoU,产生了新的最先进的性能。值得注意的是,PGSeg模型仅在CC12M数据集上训练,在PASCAL VOC12和COCO上的mIoU方面分别超过了一些利用CLIP和BERT等大型基础模型的先进方法,在PASCAL VOC12和COCO上的mIoU方面分别提高了14.5%和5.2%。
往期精彩文章推荐
关注我们 记得星标
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1400多位海内外讲者,举办了逾600场活动,超600万人次观看。
我知道你
在看
哦
~
点击 阅读原文 跳转至"1:20:20"查看回放!