【多模态论文阅读】Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual

一、亮点

在融合文本和视觉两种模态的时候,通常使用concatenation的方法或者element-wise 乘积or求和,但是我们认为这些方法不如两个向量之间的外积那样具有表现力。与元素积相比,外积计算的是两个向量的所有元素之间的乘法交互。然而由于外积的高维性,通常是不可行的,所以本文提出用多么太紧凑双线性池化(MCB)来高效地表达多模态特征。

并且本文的还有一个亮点在于,对于VQA任务,使用两次MCB——一次用于预测对于空间特征的attention,另一次用于融合文本特征和视觉特征。

通过将图像和文本的表示随机投影到更高维空间(使用Count Sketch),然后在快速傅立叶变换(FFT)空间中使用元素乘积有效地卷积两个向量,可以近似多模态紧凑双线性池化。
请添加图片描述

二、模型结构

2.1 MCB(Multimodal Compact Bilinear Pooling)

Count Sketch 映射方法:
映射前向量为a (n维)
映射后向量为y (d维)

这里有两个参数数组:
s ∈ { − 1 , 1 } n s∈{\{-1, 1\}}^n s{1,1}n
h ∈ { 1 , . . . , d } n h∈{\{1,...,d\}}^n h{1,...,d}n

s表示第n个元素加的权
h表示第n个元素加到映射后的那个位置
则有:y[h[I]] += a[I] * s[i]

两向量作外积之后的映射等于两向量分别作映射后的卷积,且两个向量的卷积可以使用FFT 快速傅里叶变换代替,即:
请添加图片描述
x ′ ∗ q ′ = F F T − 1 ( F F T ( x ′ ) ⊙ F F T ( q ′ ) ) x' * q' = FFT^{-1}(FFT(x')⊙FFT(q')) xq=FFT1(FFT(x)FFT(q))

整个算法流程为:
请添加图片描述

2.2 VQA框架

请添加图片描述
这里需要注意的是,使用了两次MCB——一次用于预测对于空间特征的attention,另一次用于融合文本特征和视觉特征。

同时,对于需要预测的答案,我们也使用一个MCB。
请添加图片描述

参考资料

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding——EMNLP2016

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值