CVPR2023 Highlight | Side Adapter Network – 极致轻薄却性能强劲的开放词汇语义分割器...

关注公众号,发现CV技术之美

要点:仅需要8M额外的训练参数,就可以利用冻结的CLIP模型实现15帧每秒的开放词汇语义分割,同时性能相较STOA大幅度提升。

Paper Link:  https://arxiv.org/pdf/2302.12242

Project Page: https://mendelxu.github.io/SAN

Hugging Face: Hugging Face – The AI community building the future

Code: https://github.com/MendelXu/SAN

7343f342552a9273af4d06846c018e0e.jpeg

图1 SAN的可视化结果 

识别并分割出任意类别的视觉元素是计算机视的最具挑战的问题之一。近期,来自华中科技大学和微软亚洲研究院的研究人员入选CVPR2023 Highlight的论文中提出了一种全新的开放语义词汇语义分割架构:Side Adapter Network,该架构可以赋予已有的VL预训练模型(CLIP)进行开放词汇语义分割的能力,在仅需8M额外的训练参数的条件下,在一系列数据集上相较于之前的SOTA模型取得了大幅的性能提升(表1所示),并实现15帧每秒的处理速度,比SimSeg[1]快19倍,比MaskCLIP[2]快3倍 (表2所示)。

480316b6e7a1d53f6f07241a065c6991.png

表1与其他方法在多种数据集上的系统级比较。

fea70bb186cdc1ef639dd9f31d70a50e.png

表 2 推理速度与可训练参数量的比较。

开放词汇语义分割算法通常基于以CLIP为代表的VL预训练模型。然而,这些VL预训练模型通常是在图片级任务上训练的,因此不具备像素级识别能力。为了克服图片级识别与像素级识别的粒度鸿沟(Granularity Gap),此前的开放词汇语义分割算法[1,3]会采用以下策略:

1.对VL预训练模型进行微调,通过改变其网络权重,使其具备像素级识别能力。该策略的缺点在于:微调模型权重会导致VL预训练模型的开放词汇识别能力受到伤害。

2.将开放语义分割问题拆解为两个阶段:第一阶段提取Mask Proposals,第二阶段使用CLIP对每个Mask Proposals进行识别。该策略可以在一定程度上绕开粒度鸿沟的挑战,但其缺点在于CLIP需要对每个Mask Proposal单独提取特征,计算代价十分巨大,并且第一阶段提取的Mask Proposal并不一定适合CLIP的分类。

Side Adapter Network 提出了一种全新的端到端架构,在无需微调VL预训练模型的同时,生成的Mask Proposals也可以更好的适配CLIP模型。该工作的主要想法(图1)是在一个冻结的CLIP模型旁增加一个Side Adapter Network (SAN),SAN用以预测掩码候选(Mask Proposals),并通过一组可以作用在CLIP的self-attention中的attention bias,引导CLIP仅关注Mask Proposals的相关区域,实现对Mask Proposals类别的准确预测。

5ed5936b67a982d1b59a67b1646ef7df.png

图2  SAN的架构示意图

具体来说,Side Adapter Network包含以下几个关键技术: 

1)Side Adapter Network是端到端(end-to-end)可训练的,因此网络预测的Mask Proposals可以更好的适应CLIP模型,如表3所示,相较于两阶段训练,Side Adapter Network的端到端训练带来了+4.5mIoU的性能提升。

8d134dea08be5f9e54da6b56e444f60d.png

表 3 端到端训练的有效性

2)SAN中无需微调(fine-tune)CLIP模型,因此可以最大程度的保持CLIP模型的开放词汇能力。如图3所示,当我们使用不同的学习率来微调CLIP模型的参数时,其开放词汇识别能力会随着学习率的提升而下降。

849c07e96f470e636411c654f2664db3.png

图3  微调(Fine-tune) CLIP模型的参数会伤害其开放词汇识别能力。 

3)SAN采用的[SLS] token实现了仅需推理一次完整的CLIP模型就可以对所有Mask Proposals进行识别,从而极大的提高了推理速度,比基线方法快19倍。图4展示了[SLS] token的原理示意图,其通过修改Attention Bias改变原始[CLS] token的关注区域,从而实现对Mask Proposals的高效与精准识别。

37607c2a4bcd2b3452eb8fd1d26d3a8d.png

图4 [SLS] Token通过修改Attention Bias实现对Mask Proposals的高效识别。 

4)掩码(Mask)预测与类别(Category) 预测解耦带来更精准的分类能力。CLIP模型的开放识别能力不仅仅依赖于物体区域本身,也依赖于物体的上下文信息(Context Information)。这促使研究人员提出掩码预测与类别预测解耦的双头设计,表4显示该设计可以进一步提升模型的预测精度。

2004a94cac39580a57cbeb7b22ad7e66.png

表 4 掩码预测与类别预测解耦的设计带来更好的性能。 

5)充分复用CLIP模型的特征,大幅度降低所需的额外参数量的同时获得最佳性能。表5展示了复用CLIP特征带来的性能增益。

5b0412f004c341ea20554bf4158a0902.png

表5 复用CLIP模型的特征可以显著提升性能。

目前SAN的代码均已开源。 

[1] A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-language Model, ECCV,2022 

[2] Open-Vocabulary Panoptic Segmentation with MaskCLIP, Arxiv, 2022 

[3] Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP, CVPR2023

ec9ceda31d70be7007c56db4cdea2972.jpeg

END

欢迎加入「图像分割交流群👇备注:Seg

6059515146d191771e68f0ccb275b501.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值