开放词汇语义分割新突破:无需训练的测试时自适应方法全解析

语义分割旨在对图像进行像素级别的分类,为图像中的每个像素分配一个标签。

传统上,模型被训练来识别一组固定的类别,但最近的进展催生了开放词汇语义分割,在这种分割中,模型使用文本查询从未定义且无边界的类别集合中识别类别。这项任务利用了文本和视觉嵌入之间的协同作用,实现了灵活且动态的标注。

然而,和所有模型一样,开放词汇语义分割模型也容易受到域偏移的影响 —— 即模型遇到的数据分布与其训练时的数据分布不同的情况,这会导致性能下降。尽管已经提出了几种域自适应方法,但它们尚未应用于开放词汇语义分割的场景中。

为此,我们总结了四篇针对开放词汇语义分割的无需训练的测试时自适应方法。

论文1:


优点与创新:

1.无训练的测试时适应性:我们提出了第一个用于OV语义分割的适应性方法。该方法在测试时无需训练,可以根据不同的输入图像自适应响应。我们的框架简单、可扩展,适用于大型适配器库,并且与骨干网络无关。

2.新的OV领域适应基准:我们提供了一个基于20个领域的基准,覆盖了10个流行数据集,通过全面的实验展示了在不同数据集上的表现,并且与零-shot方法和简单适配器融合方法相比,表现优越。

3.可解释性和LoRA贡献分析:我们的方法本身具有透明性和可控性,即使在测试时也能轻松扩展到新的目标。适应阶段不涉及访问源数据,从而保护数据隐私。我们展示了适配器如何协同工作,并且如何衡量它们对适应过程的贡献和影响。

论文2:

优点与创新:

1.我们率先研发出一种用于语义分割的高效单一架构。该架构的设计灵感源自文献 中所提出的 MDE 架构,我们将其命名为 M4Semantic,并利用航空数据对其有效性加以验证。

2.进一步地,我们将 M4Depth 和 M4Semantic 这两种架构进行整合,构建出一个联合架构。具体做法是让二者共享特征提取部分,而解码器则相互独立。我们将此联合架构命名为 Co-SemDepth,并在航空数据上对其准确性及实时性能进行了验证。

3.我们针对所提出的方法,以及其他前沿的语义分割和深度估计方法,在 MidAir 数据集上展开基准测试,从而凸显出相较于其他方法,采用我们的联合架构所具备的优势。

论文3:

优点与创新:

1.我们提出了一种用于开放词汇语义分割的编码器-解码器架构,包括基于层次编码器的成本图生成和逐步融合解码器。

2.我们引入了一种类别早期拒绝机制,在早期层拒绝不存在的类别,这有助于显著提高推理速度,同时不会显著降低分割性能。例如,它在PC-459上提供了4.7倍的加速。

3.我们提出的方法SED在多个开放词汇分割数据集上实现了卓越的性能。具体而言,所提出的SED在分割性能和速度之间提供了良好的折衷。当使用ConvNeXt-L时,我们提出的SED在A-150上获得了35.2%的mIoU分数,在PC-459上获得了22.6%的mIoU分数。

论文4:

优点与创新:

1.我们提出了一种基于成本聚合的框架,用于开放词汇的语义分割,通过微调其编码器有效地将CLIP适配到下游分割任务中。

2.为了聚合图像-文本成本体积,我们在框架中结合了空间和类别聚合,以推理多模态成本体积,并探索了多种方法来增强我们的成本聚合框架

3.我们的框架名为CAT-Seg,在标准开放词汇基准测试以及极端案例场景中建立了最先进的性能,展示了其多功能性和实用性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值