【cvpr2022】CRIS: CLIP-Driven Referring Image Segmentation

lynn_Dai

已于 2022-06-22 14:57:36 修改

阅读量3.7k

点赞数 1

分类专栏：阅读笔记 # Referring Image Segmentation 文章标签：计算机视觉 python 深度学习

于 2022-06-22 14:54:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lynn_Dai/article/details/125409073

版权

阅读笔记同时被 2 个专栏收录

17 篇文章

订阅专栏

Referring Image Segmentation

6 篇文章

订阅专栏

文章地址：CRIS
Github：https://github.com/DerrickWang005/CRIS.pytorch

motivation：

1、现有的方法利用外部知识促进学习，主要采用单模态的预训练(如预训练的图像或文本编码器)，缺乏多模态的对应信息。CLIP展示了从4亿对图像-文本对学习SOTA图像级视觉概念的能力，这有助于多模态任务。
2、由于图像级预测与像素级预测的差异，直接使用CLIP对于像素级预测任务可能不是最优的。前者关注输入图像的全局信息，而后者需要学习每个空间激活的细粒度视觉表示。

idea：

利用 CLIP 模型的强大知识进行RIS，以增强跨模态匹配的能力。提出了一种有效且灵活的框架，称为 CLIP-Driven Referring Image Segmentation (CRIS)，它可以传递大量的 CLIP 多模态对应知识，以实现文本到像素的对齐。

首先，提出了一种视觉语言解码器，它通过自注意力操作捕获像素级特征的长期依赖关系，并通过交叉注意力操作自适应地将精细结构的文本特征传播到像素级特征。
其次，引入了文本到像素对比学习，它可以对齐语言特征和相应的像素级特征，同时在多模态嵌入空间中区分不相关的像素级特征。基于该方案，该模型可以通过交织语言和像素级视觉特征来明确学习细粒度的视觉概念。

contribution：

提出了一个 CLIP 的RIS框架 (CRIS) 来传递 CLIP 模型的知识以实现文本到像素的对齐。
通过两种创新设计充分利用这种多模态知识，即视觉语言解码器和文本到像素对比学习。

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。