新SOTA已达成!端到端图像分割框架:CRIS

来源:投稿 作者:xin
编辑:学姐 

Motivation:

当前存在的多模态预训练方法都是将文本和图像分开训练的,忽略了图像和文本间的对应信息交互。CLIP的提出打通了这一分别训练的界限,但是CLIP实现的是图像级别与文本级别的对齐,而在指示分割任务中CLIP并不是最优的选择。故本文基于指示分割任务,对像素级别与文本级别的对齐进行了探究。(下图所示为CLIP与本文提出的CRIS方法对比)

Method

本文的idea如下,有效利用预训练好的CLIP的知识(即文本特征与图像特征),接着设计了visual-language decoder从文本特征到像素级的图像特征传递细粒度的分割信息。最后将像素级图像特征和全局文本特征使用对比学习策略拉近文本和与之相关像素的距离,推远与之不相关像素的距离。

本文提出CRIS框架图如下,可以分为3个部分,分别为图像、文本特征提取;视觉语言解码器以及文本像素对比损失

P、N表示正负例。

最后,为了获取最终的分割结果,将\sigma{(z_t\cdot z_v)}变到\frac {H} {4}\times\frac {W} {4},再上采样到原图大小。

Result

在三个主流数据机上验证了提出方法的有效性

关注下方《学姐带你玩AI》🚀🚀🚀

回复“CVPR”获取

500多篇CVPR必读论文,包含55个分类

码字不易,欢迎大家点赞评论收藏!

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值