【多模态论文阅读】MUTAN: Multimodal Tucker Fusion for Visual Question Answering

一、背景

请添加图片描述
对于MCB来说, W q W_q Wq W v W_v Wv是固定参数,仅仅 W o W_o Wo是可学习参数。很多参数是固定的,依赖于高维输出特征来保证稳健的性能,这可能会由于巨大的内存使用量而限制其适用性。

对于MLB来说,虽然 W q 、 W v 、 W o W_q、W_v、W_o WqWvWo都是可学习的参数,而 T c T_c Tc是固定参数,相较于MUTAN需要学习的参数多,收敛慢。

本文提出MUTAN——基于多模态张量Tucker分解,能够有效的在视觉和文本的双线性交互(Bilinear models)的模型中进行参数化。

二、模型结构

请添加图片描述

2.1 Tucker分解

3-way张量T的Tucker分解表示是因子矩阵 W v , W q , W o W_v,W_q,W_o Wv,Wq,Wo和核心张量 T c T_c Tc之间的张量积。
请添加图片描述

2.2 多模态Tucker融合

经过张量T的Tucker分解方程参数化张量T的权重时,y的输出可以这样表示:
请添加图片描述
这完全等同于将q和v的投影的完整双线性交互编码为一个潜在对表示z,并使用该潜在代码预测答案,如下:
请添加图片描述

2.3 解释

W q , W v W_q,W_v Wq,Wv :将问题和图像矢量投影到 t q 和 t v t_q和t_v tqtv各个维的空间中, t q 或 t v t_q或t_v tqtv维度越高,模型越复杂。
T c T_c Tc:用于模拟 q ~ \tilde{q} q~ v ~ \tilde{v} v~ 之间的相互作用。它从所有相关 q ~ [ i ] \tilde{q}[i] q~[i] v ~ [ j ] \tilde{v}[j] v~[j]中学习到一个大小为 t o t_o to的向量z的投影。 T c T_c Tc控制着模态间交互的复杂性。
W o W_o Wo:为A中的每个类别的嵌入z对该对进行评分

参考资料

MUTAN:Multimodal Tucker Fusion For Visual Question Answering

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值