【多模态论文阅读】Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Ans

最新推荐文章于 2024-04-13 09:22:40 发布

CC‘s World

最新推荐文章于 2024-04-13 09:22:40 发布

阅读量3.6k

点赞数 1

分类专栏：多模态文章标签：机器学习多模态

本文链接：https://blog.csdn.net/qq_36643449/article/details/123279877

版权

多模态专栏收录该内容

25 篇文章 10 订阅

订阅专栏

一、亮点

对于多模态特征融合，本文开发了一种多模态因子双线性（MFB）池化方法来有效地组合多模态特征；
对于细粒度的图像和问题表示，开发了一种“共同注意”机制，使用端到端的深度网络架构来共同学习图像和问题的注意力。

二、MCB和MLB的缺点

MCB 模型依赖于高维输出特征来保证稳健的性能，这可能会由于巨大的内存使用量而限制其适用性。为了克服这个问题，Kim 等人提出了基于两个特征向量的Hadamard乘积的多模态低秩双线性化（MLB）池模型。由于 MLB 生成的输出特征维度较低，模型参数较少，因此与 MCB 具有很强的竞争力。然而，MLB 的收敛速度较慢，并且对学习的超参数很敏感。为了解决这些问题，本文开发了多模态分解双线性池（MFB）方法，该方法具有 MLB 的紧凑输出特征和 MCB 的强大表达能力的双重优点。

三、模型结构

3.1 MFB

最简单的bilinear model定义如下：
请添加图片描述
然后引入矩阵分解，得到：

上面只是输出向量的一个值，为了得到o维输出向量，则需要o个Ui和Vi，即：

通过reshape可以将U和V张量转换为矩阵，即：

于是，z的表达式可以被写为：

其中函数SumPooling(x，k)意味着使用大小为k的一维非重叠窗口对x执行SumPooling。该方法可以通过组合一些常用的层来容易地实现，例如完全连接层、按元素的乘法和汇集层。此外，为了防止过度拟合，在元素方向倍增层之后添加了Dropout层。由于引入了逐元素乘法，输出神经元的大小可能会有很大的变化，模型可能会收敛到一个不令人满意的局部最小值。所以引入了power归一化。
请添加图片描述

3.2 Relationship to MLB

MLB 是所提出的 MFB 的一个特例，其中 k = 1，对应于 rank-1 分解。形象地说，MFB 可以分解为两个阶段（见图 1（b））：首先，将来自不同模态的特征扩展到高维空间，然后与元素乘法相结合。之后，进行归一化层后的 sum pooling 将高维特征压缩到紧凑的输出特征中，而 MLB 直接将特征投影到低维输出空间并执行逐元素乘法。因此，在输出特征维数相同的情况下，MFB 的表示能力比 MLB 更强大。

3.3 MFB with Co-Attention

请添加图片描述
图像和文本模块是松散耦合的，因此我们在学习文本注意模块时不会利用图像特征。这是基于人的基本认知，因为我们假设网络可以直接推断问题注意力（即问题的关键词），而无需看到图像。

参考资料

CC‘s World

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【多模态论文阅读】Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Ans

一、亮点对于多模态特征融合，本文开发了一种多模态因子双线性（MFB）池化方法来有效地组合多模态特征；对于细粒度的图像和问题表示，开发了一种“共同注意”机制，使用端到端的深度网络架构来共同学习图像和问题的注意力。二、MCB和MLB的缺点MCB 模型依赖于高维输出特征来保证稳健的性能，这可能会由于巨大的内存使用量而限制其适用性。为了克服这个问题，Kim 等人提出了基于两个特征向量的Hadamard乘积的多模态低秩双线性化（MLB）池模型。由于 MLB 生成的输出特征维度较低，模型参数较少，因此与
复制链接

扫一扫

专栏目录