【多模态】《Multimodal Residual Learning for Visual QA》论文阅读笔记

一、概述

这篇文章做的是VQA。这篇文章最大的创新点在于在【多模态】《Stacked Attention Networks for Image Question Answering》论文阅读笔记这篇的基础之上,引入了更多的堆叠block并通过残差连接解决可能会出现的梯度消失问题。

二、残差网络

请添加图片描述

三、模型提出的出发点

在一些注意力网络中,是把问题作为query去对视觉区域做attention,然后得到统一的多模态融合表征,即:
请添加图片描述
F ( q , V ) F(q,V) F(q,V)代表的是统一的多模态表征, p i p_i pi是视觉区域的权重,是通过把问题作为query去对视觉区域做attention得到的。问题信息仅通过系数 p 对联合表示的贡献很小,这可能会导致学习联合表示的瓶颈。

所以可以将问题向量作为shortcut X,然后将视觉和问题的注意力网络作为残差网络中的非线性映射F(X)来进行多模态表征的残差网络建模。

四、Multimodal Residual Networks

MRN 由多个学习块组成,这些块堆叠起来用于深度残差学习。 用 H(q, v) 表示最优映射,即:
请添加图片描述

为了更深入的残差学习,我们在下一层用 H1(q, v) 替换 q。
请添加图片描述
残差连接方式可以使用如下的结构。经实验,最好的结构是结构(b)。
请添加图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值