《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记

最新推荐文章于 2024-08-16 08:30:42 发布

等风人

最新推荐文章于 2024-08-16 08:30:42 发布

阅读量2.8k

点赞数

分类专栏： VQA 多模态融合 bilinear image text 论文阅读笔记

本文链接：https://blog.csdn.net/jiang6869732/article/details/81409668

版权

《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》提出了一种新的融合方案，利用Tucker张量分解有效处理视觉问答任务中的双线性模型的高维度问题。MUTAN不仅简化了模型参数，而且在保持良好可解释性的同时，通过结构化稀疏约束防止过拟合。在VQA数据集上的实验显示，MUTAN超越了MCB和MLB，并且与MLB结合时能进一步提升性能。

摘要由CSDN通过智能技术生成

《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记

一、研究背景

Bilinear models在视觉问答（VQA）任务中进行信息融合提供了一个吸引人的框架。它们有助于学习question meaning 和 visual concepts in the image之间的高层次关系，但它们存在高维度问题。论文引入MUTAN，a multimodal tensor-based Tucker decomposition ，有效地参数化visual和text表示之间的双线性相互作用。除了Tucker framework之外，还设计了一种基于矩阵的低阶分解来明确约束交互等级。使用MUTAN，可以控制合并方案的复杂性，同时保持良好的可解释融合关系。

二、文章贡献

1、VQA的新融合方案依赖于基于Tucker张量的分解，包括分解为三个矩阵和核心张量。论文中证明了MUTAN融合方案推广了最新的双线性模型，即MCB [5]和MLB [8]，同时具有更强的表现力；
2、Additional structured sparsity 约束核心张量以进一步控制模型参数的数量。这在训练期间充当正则化器并防止过度拟合，使我们能够更灵活地调整输入/输出预测；
3、在最常使用的数据集VQA上取得很好的结果，文中还表明MUTAN在相同的设置的条件下，结果优于MCB 和MLB ，并且当与MLB结合时可以进一步提高性能，验证两种方法之间的互补可能性。