MCOMET: Multimodal Fusion Transformer for Physical Audiovisual Commonsense Reasoning

fyvc11255

已于 2024-07-17 11:49:00 修改

阅读量951

点赞数 21

分类专栏：论文随笔文章标签： transformer 深度学习人工智能

于 2024-03-08 17:45:50 首次发布

本文链接：https://blog.csdn.net/fyvc11255/article/details/136537590

版权

论文随笔专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

前言
一、动机
二、贡献
三、方法
四、实验
五、总结
六、读后感

前言

Mcomet：用于物理视听常识推理的多模态融合转换器
物理常识推理对于构建可靠和可解释的人工智能系统至关重要，它涉及对日常对象的物理属性和可供性的一般理解，这些对象如何被操纵，以及它们如何与他人互动。它从根本上说是一种多感官的任务，因为物理属性通过多种模态表现出来，包括视觉和声学。在这项工作中，我们提出了一个用于物理视听常识推理的统一框架，命名为多模态常识转换器( MCOMET )。MCOMET有两个有趣的性质：i )它充分挖掘了跨模态(例如,对,三元组和四元组)之间的高阶时间关系；2 )它通过具有紧融合瓶颈的特征收集和传播机制来限制跨模态流，迫使模型关注每个模态中最相关的部分，并抑制噪声信息的传播。我们在一个最近的公共基准测试集PACS上评估了我们的模型。结果表明，MCOMET显著优于多种强基线，显示出强大的多模态常识推理能力。

一、动机

不同模态之间的内在差异；
不同的噪声拓扑结构，其中一些模态流比其他模态流包含更多的任务特定信息
整合跨模态信息的计算复杂度高。

在这里插入图片描述

二、贡献

我们提出了一种新颖的多模态常识转换器( MCOMET )用于物理视听常识推理。我们的模型可以通过两个单模态编码器和一个跨模态编码器捕获模态内和模态间的关系以及高阶的时间关系。结果表明，MCOMET优于一系列强大的基线。
探索如何有效地融合音频流和视频流，以更好地发现对象的属性/可供性以及它们之间的相互作用。我们设计了一个时间关系模块( TRM )，并扩展了紧的注意力瓶颈。TRM从帧的有序元组中构造表示，能够以不同的速度和时间偏移匹配对象的交互。它们共同作用，减少视觉和音频特征中的时空冗余和噪声信息。
在基准测试集上的实验结果证明了所提方法的优越性。为了验证MCOMET的关键成分，还进行了大量的消融研究。

三、方法

问题表示

任务说明

对于一个问题 $q$ ，从两个候选答案 $(o 1, o 2)$ 中给出一个合适的答案

数据格式

$(q, (b 1, v 1, a 1), (b 2, v 2, a 2), l)$ 其中， $q$ 表示问题 $b$ 表示视频帧中的物体边界框 $v$ 表示视频片段 $a$ 表示音频 $l$ 表示这条问题的正确答案.

模型

模型结构
Temporal Relational Module(时态关系模块)：是MCOMET的关键，它允许帧(从视频中采样)的时序子序列与对应的(从音频中采样)进行元组匹配。其背后的想法是，视频中的交互以不同的速度和位置呈现，并且很难用一帧来描述，例如移动一个玻璃杯。
$V_p^k = [\Phi(v_{p_1}) + PE(p_1), …, \Phi(v_{p_k}) + PE(p_k)] \in \mathbb{R}^{k \times d}$
$1< p_i < p_{i+1}<F$ 一个视频总共有F帧，取 $k$ 帧组成初始输入序列。 $\Phi$ 是一个卷积操作，作用是 $\Bbb{R}^{H\times W\times 3} \mapsto \Bbb{R}^d$ ；PE是对视频帧位置进行编码。

Uni-modal Encoder(单模态编码器)：采用多个堆叠的transformer编码器层，每层是一个多头注意力层和一个前馈神经网络。
Cross-modal Encoder(跨模态编码器)：

Query Generator(查询生成器)：多头注意力层
We hope that by computing attention weights between video clips and text queries, each clip can learn whether it contains the physical properties of objects involved in the problem and predict a query embedding.
Query Decoder(查询解码器)：将模态融合序列和查询生成序列变成关于具体的模型论文好像没说和输入等长的序列在经过MLP预测答案。使用交叉熵损失优化模型。

we apply the binary cross-entropy loss for optimization

四、实验

数据集

PACS-QA：问答，答案二选一
PACS-Material：材料分类，问题问的是物品的材料方面。如：哪种物体更容易由玻璃制成

结果

实验结果

消融实验

1. 时间关系模块的采样数

Temporal Relational Module中，对于 $k$ 有不同取值, $k$ 越大，序列越长

2. 采样帧间隔时间

3. 跨模态融合编码器的计算方式

五、总结

本文提出了一个用于物理视听常识推理的统一框架，即MCOMET。它有两个吸引人的地方：i )它充分探索了不同模态(例如,对,三元组和四元组)之间的高阶时间关系；并且ii )它通过具有紧融合瓶颈的特征收集和传播机制来限制跨模态流，大大降低了计算成本并抑制了噪声信息。在PACS基准测试集上的实验结果验证了MCOMET的优越性和有效性。我们希望这项工作能对多模态物理常识推理有所启发。

六、读后感

这篇论文中使用的模态编码模块均是transformer或是计算改进后的transformer，我觉得本文的创新点集中在对视频音频双模态的一个匹配绑定，也就是本文中的Temporal Relational Module(时态关系模块)

fyvc11255

关注

21
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
MCOMET: Multimodal Fusion Transformer for Physical Audiovisual Commonsense Reasoning

Mcomet：用于物理视听常识推理的多模态融合转换器物理常识推理对于构建可靠和可解释的人工智能系统至关重要，它涉及对日常对象的物理属性和可供性的一般理解，这些对象如何被操纵，以及它们如何与他人互动。它从根本上说是一种多感官的任务，因为物理属性通过多种模态表现出来，包括视觉和声学。在这项工作中，我们提出了一个用于物理视听常识推理的统一框架，命名为多模态常识转换器( MCOMET )。MCOMET有两个有趣的性质：i )它充分挖掘了跨模态(例如,对,三元组和四元组)之间的高阶时间关系；
复制链接

扫一扫

专栏目录