《CRIS: CLIP-Driven Referring Image Segmentation》论文解读

本文介绍了CRIS模型,一种利用CLIP模型知识的Referring Image Segmentation方法。通过ResNet和Transformer提取图像与文本特征,结合视觉语言解码器与文本到像素对比学习,实现文本到像素的对齐。在RefCOCO等数据集上,CRIS表现出优越性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

此论文的贡献

1.作者提出了一个CLIP驱动的Referrring Image Segmentation(CRIS)来传递CLIP模型的知识,以实现文本到像素的对齐。

2.充分利用了多模态知识,设计了视觉语言解码器和文本到像素对比学习两种创新设计。

3.在三个具有挑战性的基准数据集(RefCOCO、RefCOCO+、GRef)上的实验结果明显优于以前的最先进的方法。

CRIS模型

模型整体框架

首先,我们使用ResNet和Transformer分别提取图像和文本特征,并进一步融合得到简单的多模态特征。其次,将这些特征和文本特征输入到视觉语言解码器中,将细粒度的语义信息从文本表示传播到像素级的视觉激活。最后,使用两个Projector生成最终的预测掩码,并采用文本-像素对比损失将文本特征与相关像素级视觉特征显式对齐。

图像和文本特征提取

图像编码器

对于输入图像I\in R^{H\times W\times 3},输入ResNet得到其2-4阶段的多个视觉特征,分别定义为F_{v2}\in R^{H/8\times /8 \times C_2},F_{v3}\in R^{H/16\times /16 \times C_3}F_{v4}\in R^{H/32\times /32 \times C_4}

文本编码器

对于输入表达式T\in R^L,作者采用经过修改的Transformer来提取文本特征

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值