【cvpr2022】CRIS: CLIP-Driven Referring Image Segmentation

文章地址:CRIS
Github:https://github.com/DerrickWang005/CRIS.pytorch

motivation:

1、现有的方法利用外部知识促进学习,主要采用单模态的预训练(如预训练的图像或文本编码器),缺乏多模态的对应信息。CLIP展示了从4亿对图像-文本对学习SOTA图像级视觉概念的能力,这有助于多模态任务。
2、由于图像级预测与像素级预测的差异,直接使用CLIP对于像素级预测任务可能不是最优的。前者关注输入图像的全局信息,而后者需要学习每个空间激活的细粒度视觉表示。

idea:

利用 CLIP 模型的强大知识进行RIS,以增强跨模态匹配的能力。提出了一种有效且灵活的框架,称为 CLIP-Driven Referring Image Segmentation (CRIS),它可以传递大量的 CLIP 多模态对应知识,以实现文本到像素的对齐。

  • 首先,提出了一种视觉语言解码器,它通过自注意力操作捕获像素级特征的长期依赖关系,并通过交叉注意力操作自适应地将精细结构的文本特征传播到像素级特征。
  • 其次,引入了文本到像素对比学习,它可以对齐语言特征和相应的像素级特征,同时在多模态嵌入空间中区分不相关的像素级特征。基于该方案,该模型可以通过交织语言和像素级视觉特征来明确学习细粒度的视觉概念。

contribution:

  • 提出了一个 CLIP 的RIS框架 (CRIS) 来传递 CLIP 模型的知识以实现文本到像素的对齐。
  • 通过两种创新设计充分利用这种多模态知识,即视觉语言解码器和文本到像素对比学习。

在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值