CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记

最新推荐文章于 2024-05-09 15:09:25 发布

NeverMoreH

最新推荐文章于 2024-05-09 15:09:25 发布

阅读量1.1k

点赞数 1

分类专栏： vision&language # visual grounding (RE) 文章标签： CVPR2020 PhraseCut

本文链接：https://blog.csdn.net/ms961516792/article/details/107228123

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

visual grounding (RE)

10 篇文章 6 订阅

订阅专栏

简介

本文是一篇poster，作者来自马萨诸塞大学阿姆赫斯特分校和Adobe研究院。
明确一下本文的task：在图片中分割出给定的短语。
下载链接

动机

现有的数据集缺乏在实际应用中出现的概念的规模和多样性（lack the scale and diversity of concepts that appear in real-world applications.），基于此问题，本文提出了VGPHRASECUT数据集。作者使用了几个 state of-the-art referring approaches在此数据集上进行了测试，结果都不尽人意。通过分析，作者认为这是由于数据集中的罕见类别和罕见属性造成的（长尾效应）。

贡献

提出VGPHRASECUT数据集。
提出模块化方法，可以将类别、属性和关系相关的视觉cues进行结合。
通过利用对更频繁的类别和属性的预测，提高模型在罕见类别和属性上的性能。

方法

本文方法的整体框架如下图所示，整个framework还是很清楚的。

Backbone encoders，对于image，使用MaskRCNN；对于phrase，使用 bi-directional LSTMs。
Category module，这部分分为三个步骤进行。①. 基于instances features生成category channel score，假设原图片大小为 $w\times h$ ，共有 $N$ 个类，生成的category channel score大小为 $\frac{1}{2}w\times\frac{1}{2}h\times N$ 。②. 基于phrase embedding生成channel attention。③. 将前两步的结果相乘，然后再做一个仿射变换，再激活一下，就得到了结果。
Attribute module，和Category module一样，只不过通道数不一样，这里通道数应该是 $100 \times 20$ ，100代表top100个objects，20代表attributes。
Relationship module，也和上文差不多，这里用的是空洞卷积，用来提高感受野。
Combining the modules，这部分有点似懂非懂，按照我理解的来写吧。作者对上述得到的三个输出进行elementwise product and normalization，然后得到一个10-channel的score map。将category、attribute和relationship的embedding进行concat，学得一个attention。将score map和attention结合，得到最终输出。