CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记

简介

本文是一篇poster,作者来自马萨诸塞大学阿姆赫斯特分校和Adobe研究院。
明确一下本文的task:在图片中分割出给定的短语。
下载链接

动机

现有的数据集缺乏在实际应用中出现的概念的规模和多样性(lack the scale and diversity of concepts that appear in real-world applications.),基于此问题,本文提出了VGPHRASECUT数据集。作者使用了几个 state of-the-art referring approaches在此数据集上进行了测试,结果都不尽人意。通过分析,作者认为这是由于数据集中的罕见类别和罕见属性造成的(长尾效应)。

贡献

  1. 提出VGPHRASECUT数据集。
  2. 提出模块化方法,可以将类别、属性和关系相关的视觉cues进行结合。
  3. 通过利用对更频繁的类别和属性的预测,提高模型在罕见类别和属性上的性能。

方法

本文方法的整体框架如下图所示,整个framework还是很清楚的。

Backbone encoders,对于image,使用MaskRCNN;对于phrase,使用 bi-directional LSTMs。
Category module,这部分分为三个步骤进行。①. 基于instances features生成category channel score,假设原图片大小为 w × h w\times h w×h,共有 N N N个类,生成的category channel score大小为 1 2 w × 1 2 h × N \frac{1}{2}w\times\frac{1}{2}h\times N 21w×21h×N。②. 基于phrase embedding生成channel attention。③. 将前两步的结果相乘,然后再做一个仿射变换,再激活一下,就得到了结果。
Attribute module,和Category module一样,只不过通道数不一样,这里通道数应该是 100 × 20 100 \times 20 100×20,100代表top100个objects,20代表attributes。
Relationship module,也和上文差不多,这里用的是空洞卷积,用来提高感受野。
Combining the modules,这部分有点似懂非懂,按照我理解的来写吧。作者对上述得到的三个输出进行elementwise product and normalization,然后得到一个10-channel的score map。将category、attribute和relationship的embedding进行concat,学得一个attention。将score map和attention结合,得到最终输出。

实验

在VGPHRASECUT数据集上的实验结果,感觉rel没啥用呀。。。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值