Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering 心得体会

8 篇文章 1 订阅
6 篇文章 1 订阅

论文链接:https://arxiv.org/abs/1812.05252

这篇论文提出了一种新的多模态特征融合方法——模式内与模式间注意流的动态融合的视觉问题回答,它可以在视觉和语言模式之间传递动态信息,它能够很好地捕捉语言和视觉领域之间的高层交互,从而显着地提高了视觉问题回答的性能。

近年来,视觉问答(VQA)的性能得到了很大的提高,原因主要有三点:

  1. 提取到了很好的视觉和语言特征表示;VGG,ResNet,FishNet以及最近的bottom-up & top-down的特征显著提高了VQA的性能。
  2. 不同类型的注意机制可以自适应地选择重要的特征,从而帮助深度学习获得更好的识别精度。
  3. 更好的多模态融合方法,如双线性融合、MCB和MUTAN。

 将得到的区域视觉特征表示为R(共有\mu个区域),第i个区域特征表示为r_{i}(2048维)

得到问题特征E,第j个词的特征表示为e_{j},所有的问题都被填充或者截断到相同的长度14。

获得的视觉对象区域特征R和问题特征E可以表示为:

如下图所示,模式间注意流(InterMAF)模块首先学会捕捉每个视觉区域和单词特征之间的重要性。

根据学习的重要性权重和聚集特征在两种模态之间传递信息流以更新每个单词特征和图像区域特征。给定视觉区域和单词特征,我们首先计算每对视觉区域和单词之间的关联权重。每个可视区域和单词特征首先被转换为查询Q、键K和值特征V。

将变换后的区域特征表示为R_{Q} R_{K}、R_{V}R_{V}

变换公式为:

其中Linear表示带参数\theta的全连接层,

InterMAF_{R\leftarrow E}的每一行代表一个视觉区域和所有单词嵌入之间的注意权重。从所有单词嵌入到这一图像区域特征的信息可以被聚合为单词值特征EV的加权求和。更新过程如下所示:

获取更新后的视觉和文字特征,然后将新的特征分别和原始特征相连接,

完成模态间操作之后,作者认为,模态内的关系是对跨模态关系的补充,应该考虑到这一点来提高VQA的准确性。朴素的IntraMAF模块只利用模态内的信息来估计区域对区域的重要性和逐字逐句的重要性。但是一些关系很重要,却只能根据来自其他模态的信息来识别。例如,即使对于相同的输入图像,不同的视觉区域对之间的关系也应该根据不同的问题进行不同的加权。

因此,我们提出了一个动态的模态内注意流模块,用于根据来自其他模态的信息来估计非模态关系重要性。如下图:

该图只显示了以问题为条件的视觉模态内注意流

根据另一种模态调整过的特征,通过门控查询和关键特征获得不同的内部模态关系的关键特征。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
这等式是聚类分析中常见的方程,被称为“方差和公式”。下面是证明过程: 假设有n个数据点,它们被分成k个聚类,每个聚类有n1, n2, ..., nk个数据点。 总偏差可以表示为所有数据点到其所属聚类中心的距离平方和: Total Deviation = ∑(xi - x̄)^2 其中,xi是数据点的值,x̄是所有数据点的平均值。 将上式展开,可以得到: Total Deviation = ∑xi^2 - 2∑xi x̄ + n(x̄)^2 第一项 ∑xi^2 表示所有数据点的平方和,第二项 -2∑xi x̄ 表示所有数据点与平均值的乘积之和的两倍,第三项 n(x̄)^2 表示平均值的平方乘以数据点的个数。 现在考虑将总偏差分解为簇内偏差和簇间偏差之和。 簇内偏差可以表示为每个聚类内数据点到聚类中心的距离平方和之和: Intra-cluster Deviation = ∑∑(xi - ci)^2 其中,ci是聚类i的中心点。 将上式展开,可以得到: Intra-cluster Deviation = ∑xi^2 - 2∑xi ci + ∑ci^2 第一项 ∑xi^2 表示所有数据点的平方和,第二项 -2∑xi ci 表示所有数据点与聚类中心的乘积之和的两倍,第三项 ∑ci^2 表示所有聚类中心的平方和。 簇间偏差可以表示为每个聚类中心与全局平均值之间的距离平方和: Inter-cluster Deviation = ∑nk(ci - x̄)^2 将上式展开,可以得到: Inter-cluster Deviation = n1(ci1 - x̄)^2 + n2(ci2 - x̄)^2 + ... + nk(cik - x̄)^2 该式表示每个聚类中心与全局平均值之间的距离平方乘以该聚类中数据点的个数之和。 现在将簇内偏差和簇间偏差相加: Intra-cluster Deviation + Inter-cluster Deviation = ∑xi^2 - 2∑xi ci + ∑ci^2 + n1(ci1 - x̄)^2 + n2(ci2 - x̄)^2 + ... + nk(cik - x̄)^2 将所有项相加,得到: Intra-cluster Deviation + Inter-cluster Deviation = ∑xi^2 - n(x̄)^2 注意到 ∑xi^2 - n(x̄)^2 就是总偏差,所以有: Intra-cluster Deviation + Inter-cluster Deviation = Total Deviation 因此,上述方差和公式成立。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值