ICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOP

ac021ad87db3a56c29365898a3f9246a.gif

©作者 | 韩聪

单位 | 美团

针对开放字典的语义分割任务,目前常用的方法有两种 coupled one-pass(例如 OpenSeg)和 decoupled multi-pass(例如 SimBaseline, ZegFormer, OVSeg 等),这两者的结构图可以分别对应图 1(a) 和 (b)。

3002ffb746684563372cc12c78a228e3.png

耦合 (coupled) 方式直接在可见类别上训练特征提取器并得到 class-agnostic masks,然后得到基于区域的分类特征,但特征的泛化性无法保证。解耦 (decoupled) 方式利用 Maskformer/SAM 等得到 class-agnostic masks,然后将生成的 mask 和预训练的视觉语言模型(CLIP 等)结合,从而完成分割任务。

这种方法在使用过程中利用了对齐的视觉-语言特征,能够保证特征的泛化性;但解耦方式中对同一张图片的多张 masks 都需要分别叠加到原图后才能经过 CLIP,带来了巨大的计算量。总的来说,one-pass 的方法相比 multi-pass 具有计算高效的优势,但解耦 (decoupled) 方法耦合 (coupled) 方法具有更强的泛化性。我们考虑能否将两者结合起来,使用 decoupled one-pass 方法(图1(c)),使模型既拥有强大的泛化性能,又能够高效计算。

7b7fda653d11001d4c2c1b246c4e9e48.png

论文标题:

Open-Vocabulary Semantic Segmentation with Decoupled One-Pass Network

论文地址:

https://arxiv.org/abs/2304.01198

代码地址:

https://github.com/CongHan0808/DeOP

2d7c7675ae085adca33f299fd61dca4b.png


本文方法

在该任务中,我们认为使用预训练的视觉语言模型 (CLIP) 来保证视觉和文本特征的对齐是非常必要的,因此我们会保留预训练的 CLIP 模型,然而直接将 masks 和经过 CLIP 的视觉特征结合进行分类效果又很差。为解决这一问题,本文提出 decoupled one-pass network,可以将 masks 作用于改进 CLIP 得到的视觉特征获取分类特征,能够在性能上超越现有方法,同时在推理速度上有 4-7 倍的提升。 

本文首先提出了 Generalized Patch Severance (GPS) 方法,通过改进 CLIP 视觉模型,获得更适合分割任务的视觉特征,能够直接将 masks 和视觉特征融合,获取良好的分类特征。Generalized Patch Severance 是针对分割任务,对 CLIP 视觉模型进行的改进,是完全 training-free,可以和所有的提取 mask 的模型结合,比如 Mask2former、SAM、MaskDINO 等,更好的 mask 分割模型,也会获得更好的分类结果。 

在此基础上,本文又提出可训练的网络结构 Classification Anchor Learning (CAL),使用 masks 作为引导,并添加可学习网络,从 CLIP 的视觉特征中获取更多的有助于分类的信息。 

本文提出方法的整体结构如图所示:

1cdefe7eda673f95893715c93c6bcefc.png

905b4ed2317a2bf0cdec7d172717bc4c.png

实验结果

open-vocabulary 设定下,数据集内划分 seen/unseen 类别结果:

13f8f8b6cdb1b8709ea47cfe28aa8c0b.png

在跨数据集设定下,实验结果:

8908d44f826247a89e81206a5c64a025.png

可视化分割效果:

5c02faf1d7288fefa9d0eabf0308cd1b.png

更多阅读

aa776deed1c43b6af80d5e3bba3f1770.png

43185cf1a7505ce601f4f5b7f6db604a.png

5a1741f293f0636d908e546a110c623b.png

df0f9deaed1610641cc2fbc2642e10fa.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

fadd726bb7d85939315587452952ae43.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

43ffbaada9b1204d00876d5ec47ea183.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值