多模态特征融合的方法总结：应用于VQA视觉问答

最新推荐文章于 2025-03-31 08:18:02 发布

zimoli-nuist

最新推荐文章于 2025-03-31 08:18:02 发布

阅读量1.4k

点赞数 10

文章标签：深度学习计算机视觉人工智能 pytorch python

本文链接：https://blog.csdn.net/2301_78651472/article/details/136592162

版权

1.引言

对于视觉问答任务而言，其中比较重要的部分就是两种模态的特征融合。目前对于特征融合最先进的技术是双线性池化，该技术有很多的变体。我们主要围绕双线性池化这种模态融合的方法展开总结。其中MUTAN方法的代码，我已经放在这个链接里面MUTAN代码。本文仅供大家参考，所有方法均来自于论文，如有侵权，请联系我删除！

2.Bilinear Model

首先我们来解释一下什么是线性模型，然后再引出双线性模型。看看它们的不同之处，方可知道为什么双线性比线性要好。

2.1 线性模型

线性模型是指形如 $z = w_1x + w_2y$ 的形式，其中 $w_1 \in R^{c \times n} , w_2\in R^{c \times m} , x\in R^n , y\in R^m$ 。可以看到z只考虑了x本身的影响和y本身影响的线性叠加，而没有考虑到x与y之间相互作用的影响。

举个例子：我要判断一个吸烟的人患肺癌的指标，判断依据有两个特征，一个是每年吸烟的量，一个是每年喝酒的量。定义 $x$ 为吸烟特征， $y$ 为喝酒特征。利用上面的公式 $z = w_1x + w_2y$ ，可以得到一个人患肺癌的指标。但这里是单独考虑的吸烟和喝酒，并没考虑到吸烟与喝酒的相互作用。

到这里你应该知道，为什么要提出双线性模型，那就是因为我想考虑特征与特征之间的相互作用关系。线性模型的参数量一共为 $\times (n+m)$ ，c为最后分类的个数。

2.2 双线性模型

最开始研究者们考虑的双线性是双线性池化，而双线性模型是一种比较古老的统计模型，后面又有学者证明了：双线性池化等价于双线性模型。因此我们先介绍双线性池化，再介绍双线性模型，最后再看看双线性池化是如何等价于双线性模型的。

2.2.1 双线性池化

我们考虑两个特征的双线性池化， $x = (x_1,x_2,...,x_n) \ , \ y = (y_1,y_2,...,y_m)$ ，其中 $x_i \in R \ , \ y_i \in R$ ，x和y均为列向量。

我们现在的目的是为了考虑这两个特征的相互作用，换句话说就是让 $x_i$ 分别与 $y_j$ 相乘。我们可以写成下面的公式：

$xy^T \ \in R^{n \times m}$ (1)

得到的a是一个 $\times m$ 的矩阵，然后我们把这个矩阵展平再做两次归一化，就得到了特征x与特征y的相互作用向量b。

$\ \in R^{nm}$

其中Flatten是展平操作，Normal是两次归一化操作。然后再对b做一次线性映射，就得到了我们的目标z。

$\ \in R^{c}$ (2)

其中 $\in R^{c\times nm}$ ，此时的参数量为 $c\times n \times m$ 。令 $W_i \in R^{1\times nm}$ 是W的第i行， $(z_1,...,z_c) \in R^c$ ，然后 $z_i$ 可以写为：

最低0.47元/天解锁文章