ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记

最新推荐文章于 2024-06-21 16:34:15 发布

NeverMoreH

最新推荐文章于 2024-06-21 16:34:15 发布

阅读量761

点赞数 1

分类专栏： vision&language # visual grounding (RE) 文章标签： ECCV2020 visual grouning

本文链接：https://blog.csdn.net/ms961516792/article/details/108089797

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

visual grounding (RE)

10 篇文章 6 订阅

订阅专栏

简介

本文出自罗彻斯特大学+腾讯AI Lab
下载链接

动机

现有的visual grounding方法可以分为两类：一阶段、两阶段。本文面向一阶段方法，提升现有方法处理长（long）、复杂（complex）query的能力。本质是：本文提出了一个可以用在一阶段visual grounding模型中的query modeling方法（两阶段模型中有很多query modeling方法，但是由于一些限制，不能直接用于一阶段模型）。

贡献

对一阶段的visual grounding方法进行了改善，提升了其处理长且复杂的query的能力；
提出了一个递归的子查询构建网络，通过递归来降低referring ambiguity；
实验结果好，在不同数据集上提升5-12个百分点。

方法

本文方法的整体架构如下图所示，共包含两个核心模块：子查询学习器（Sub-query Learner）和子查询调制器（Sub-query Modulation）。

子查询学习器负责学习Query中每个word的注意力 $\alpha_n^{(k)}$ ，通过下式得到：
$\alpha_n^{(k)}=\text{softmax}[W_{a1}^{(k)} \text{tanh}(W_{a0}^{(k)} h_{n}^{(k)} (\overline{v}^{(k-1)} \odot s_n ) + b_{a0}^{(k)} ) + b_{a1}^{(k)} )]$
可以看出，学习注意力的过程中，同时考虑了 ${s_n\}_{n=1}^{N}$ （query word feature，N代表word个数）、 $\overline{v}^{(k-1)}$ （text-conditional visual feature）和 ${h_{n}^{(k)}\}_{n=1}^{N}$ （history vector）。其中：

${s_n\}_{n=1}^{N}$ 没什么好说的，就是query中每个单词的特征；
$\overline{v}^{(k-1)}$ 是上一轮得到的text-conditional visual feature的均值池化（ $\times W \times C \rightarrow 1 \times 1 \times C$ ）；
${h_{n}^{(k)}\}_{n=1}^{N}$ 表示每个word在以前的迭代过程中没被“访问”的概率，通过 $\bf{h}^{(k)} = \textbf{1} - \text{min}(\sum_{i=1}^{k-1}\bf{\alpha}^{(i)}, \bf{1})$ 计算。

对于这部分，作者添加了两个loss，如下所示：

$L_{div}=|| A^TA \odot ({\bf 1}-I) ||^2_F$ ， $A$ 是 $\times N$ 的矩阵，由每轮迭代得到的attention拼接而成， $K$ 是迭代轮数， $N$ 是word个数。此loss用于控制每一轮中，不应该focus在相同的单词上，也就是强制提升每轮迭代关注的单词的差异性。
$L_{cover} = || \bf1-\text{min}(\sum_{i=1}^K {\bf \alpha}^{(i)}, \bf 1) ||_1$ ，此loss用于提升word的查全性。

子查询调制器就是基于子查询学习器得到的注意力，对text-conditional visual feature进行refine，增强referred object的特征，并压制其他object的特征。共分为三步：

基于子查询学习器得到的 $\alpha_n^{(k)}$ 对 $s_n$ 添加attention，得到 $q^{(k)}=\sum_{n=1}^N\alpha_n^{(k)}s_n$ ；
基于 $q^{(k)}$ ，分别使用两个MLPs得到尺度向量 $\gamma^{(k)}=\text{tanh}(W_\gamma^{(k)}q^{(k)} + b_\gamma^{(k)})$ 和平移向量 $\beta^{(k)}=\text{tanh}(W_\beta^{(k)}q^{(k)} + b_\beta^{(k)})$ 。
基于上一轮迭代得到的text-conditional visual feature $v^{(k-1)}$ 、尺度向量 $\gamma^{(k)}$ 和平移向量 $\beta^{(k)}$ ，计算得到此轮的text-conditional visual feature $v^{(k)}$ ，具体公式为：
$v^{(k)}(i,j)=f_2\{ ReLU[f_1(v^{(k-1)}(i,j)) \odot \gamma^{(k)} + \beta^{(k)}] +v^{(k-1)}(i,j) \}$
上式中， $f_1, f_2$ 是两个可学习的mapping层，具体结构在上面的整体框架图中有展示， $f_1=1 \times 1 \space \text{conv} + \text{instance normalization layer}$ ， $f_2=3 \times 3 \space \text{conv} + \text{BN} + \text{ReLU}$ 。

实验

在RefCOCO、RefCOCO+和RefCOCOg上的实验结果：

在ReferItGame和Flickr30K Entities上的实验结果：

关于query modeling的消融实验：

一些可视化的结果：

NeverMoreH

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记

目录简介动机贡献方法实验简介本文出自罗彻斯特大学+腾讯AI Lab下载链接动机贡献方法实验
复制链接

扫一扫

专栏目录