一、概述
这篇文章做的是VQA。这篇文章最大的创新点在于在【多模态】《Stacked Attention Networks for Image Question Answering》论文阅读笔记这篇的基础之上,引入了更多的堆叠block并通过残差连接解决可能会出现的梯度消失问题。
二、残差网络
三、模型提出的出发点
在一些注意力网络中,是把问题作为query去对视觉区域做attention,然后得到统一的多模态融合表征,即:
F
(
q
,
V
)
F(q,V)
F(q,V)代表的是统一的多模态表征,
p
i
p_i
pi是视觉区域的权重,是通过把问题作为query去对视觉区域做attention得到的。问题信息仅通过系数 p 对联合表示的贡献很小,这可能会导致学习联合表示的瓶颈。
所以可以将问题向量作为shortcut X,然后将视觉和问题的注意力网络作为残差网络中的非线性映射F(X)来进行多模态表征的残差网络建模。
四、Multimodal Residual Networks
MRN 由多个学习块组成,这些块堆叠起来用于深度残差学习。 用 H(q, v) 表示最优映射,即:
为了更深入的残差学习,我们在下一层用 H1(q, v) 替换 q。
残差连接方式可以使用如下的结构。经实验,最好的结构是结构(b)。