Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

最新推荐文章于 2023-05-22 14:08:18 发布

luputo

最新推荐文章于 2023-05-22 14:08:18 发布

阅读量1k

点赞数 1

分类专栏：论文笔记

本文链接：https://blog.csdn.net/luo3300612/article/details/90019732

版权

论文笔记专栏收录该内容

41 篇文章 3 订阅

订阅专栏

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

原文地址

时间：2018

contribution

提出了结合bottom-up和top-down的视觉注意力机制

Model

给定一张图片 $I$ ，取其k个salient region的特征
在这里插入图片描述

Bottom-Up Attention Model

bottom-up attention是通过faster R-CNN来实现的，Faster R-CNN检测分为两步，

第一步是Region Proposal Network，预测object proposals，一个小的网络在CNN中间层的输出上滑动，在每个空间位置上给出一个得分和一个box，通过非极大抑制（nms）和iou阈值来选择最好的几个box proposals进入到第二个环节

第二步通过region of interest(ROI) 池化从每个box proposal 中提取一个14*14的特征图，这些特征图随后batch到一起输入到CNN的最后几层中，最终的输出是在class label上的softmax分布以及针对类别的精炼的bounding box

本文使用R-CNN与ResNet-101组合，来生成image feature V以备image captioning和VQA的需要，对模型的输出采用非极大抑制，然后选择那些class detection probability超过置信值的区域，对每个区域 $i$ ，记 $v_i\in R^{D}$ 为它的平均池化卷积特征， $D$ 为2048。这实际是一个"hard" attention机制，因为仅仅一小部分bounding box被选出来，相对于全集的大量bounding box而言

bottom-up attention模型由Faster R-CNN在ImageNet的预训练模型初始化，然后在Visual Genome上训练来辅助特征提取，在类别预测上我们增加了额外的属性预测，为了预测region $i$ 的属性，我们将平均池化卷积特征 $v_i$ 和学习到的真实目标类的embedding concatenate在一起，然后将结果输入到附加的输出层，这层定义为预测每个属性类得分，外加一个无属性的得分

传统的Faster R-CNN 多任务损失函数包括四个组成部分，包括RPN和最终输出的分类和box regression损失，我们保留这些部分并额外增加了一个multi-class损失来训练属性predictor

Captioning Model

给定图片特征 $V$ ，captioning model使用一个“soft”的top-down attention mechanism来给每个特征加权

总的来说，captioning model 由两个LSTM组成
在这里插入图片描述

Top-Down Attention LSTM

从现在开始，输入即为bottom-up模型的输出 $V$
attention LSTM的每一步输入都由language LSTM的上一步输出 $h^2$ 组成，具体的，通过concatenate，得到
在这里插入图片描述
其中

$W_e$ 是word embedding 矩阵， $\prod_{t}$ 是时刻 $t$ 的输入词的one-hot向量

这综合了language LSTM的输出，图片的全局信息以及部分的caption输出

加权向量 $\alpha_{i,t}$ 在 $t$ 时刻为 $v_i$ 赋权
在这里插入图片描述
其中的 $W$ 和 $w$ 为待学参数，attended image feature $\hat{v}_t$ 作为language LSTM的输入，由输入特征的凸组合得到

Language LSTM

language LSTM的输入为attended image feature和attention LSTM的输出concatenate得到
在这里插入图片描述
记 $y_{1:T}$ 表示一系列词 $y_1,...,y_T)$ ，输出词的概率计算为：

完整输出的概率由条件概率求得

在这里插入图片描述

目标函数

给定ground truth序列 $y^{*}_{1:T}$ 以及captioning模型参数 $\theta$ ，最小化交叉熵损失

在这里插入图片描述

VQA Model

给定输入image feature $V$ ， $V Q A$ 模型也使用soft top-down的注意力机制来加权每个feature，整体结构如图所示

在这里插入图片描述
使用参数的非线性层gated hyperbolic tangent activation，这个’gated tanh’层是一个映射 $f_a:\mathbf{x}\in R^{m}\rightarrow \mathbf{y}\in R^{n},a={W,W',b,b'}$ ，定义如下
其中 $\sigma$ 是sigmoid激活函数， $a$ 是待学习参数， $g$ 实际上就是一个在 $\hat{y}$ 上的门限（gate）

文章的方法是先将每个问题通过GRU encode成隐变量 $q$ ，问题中的词用word embedding表示，计算出 $q$ 之后，我们计算特征 $v_i$ 的unnormalized权值
在这里插入图片描述
归一化之后，类似之前计算出 $\hat{v}$

最后计算出response $y$ 的概率