MMTM论文阅读

最新推荐文章于 2024-08-05 22:02:44 发布

cx_0401

最新推荐文章于 2024-08-05 22:02:44 发布

阅读量4.2k

点赞数

分类专栏：多模态文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_40438523/article/details/123505312

版权

多模态专栏收录该内容

5 篇文章 0 订阅

订阅专栏

MMTM

摘要
介绍
相关工作
多模态传输模块

参考论文MMTM: Multimodal Transfer Module for CNN Fusion
github:https://github.com/haamoon/mmtm

摘要

后融合中，每个模态是分别经过单模态CNN后得到分数后再融合在一起。Multimodal Transfer Module作为本文提出的单元可以添加在特征层级的不同层级处，可以实现慢融合。利用压缩和激活操作，MMTM利用多个模态的知识去重新校准每个CNN流中的通道特征。不像其他的中间融合方法，本文提出的模块能够用在拥有不同空间维度卷积层的特征模态融合。另一个优点是它能够在网络结构最小的单模态分支中添加，并允许每个分支能够被现存的预训练的权值初始化。

介绍

一般来说，多模态融合可以在输入层、输出层或者中间层进行。尽管中间层融合应该是最有利于学习，但是主流的方法还是在输出层进行融合。比如，对于一个简单的池化操作或者注意力机制可以被用来融合1维的预测分数。但是，不同模态的中间层特征有不同或者难以对齐的空间维度。另一个原因在于每个单模态结构都是精心构造好的，这也使得多模态结构中的权值可以用单模态样本进行预训练。但是中间层融合就会改变网络结构，使得预训练权值变得复杂。
在这里插入图片描述
本文受到squeeze和excitation模块的启发，用来客服前面提到的中间层融合的问题。MMTM可以插入到任何后融合框架中的中间层里。每个MMTM包含两个单元：一个多模态压缩单元：在一个给定的级别上接收所有分支模态的特征，并生成一个全局联合表征；一个激活单元：用这个联合表征去自适应地强调在更重要的特征、压缩更不重要的特征。

MMTM的插入位置根据应用场景的不同也不一致，本文中三个应用场景：手势识别、视听语音增强、动作识别。添加MMTM在中间或者最后一层是有益的，但是对于低层次的特征却不一定。因为低层次的模态间特征联系要比高层次的模态间联系弱。甚至在手势识别这种RGB和深度模态已经对齐并且不需要压缩就可以融合的问题中如果用到压缩都可以提升效果（因为提供了全局视角的信息）。最后，通过门操作的激活在残差学习中通常比求和表现要好，体现了强调和压缩的机制。

多模态传输模块

单模态的squeeze和excitation
在这里插入图片描述
这里考虑最简单的一种CNN连接方式， $A\in R^{N_1×...×N_k×C}$ 和 $B\in R^{M_1×...×M_L×C'}$ 分别代表了 $CNN_1$ 和 $CNN_2$ 的给定层次。其中 $C$ 和 $C^{'}$ 代表了 $CNN_1$ 和 $CNN_2$ 的通道数目。MMTM接收A和B的特征作为输入，学习一个全局的多模态表征，并用这个表征去校准这个输入特征（这是由压缩和激活两个过程完成的）。
其中对于 $Z=W[S_A,S_B]+b$ ， $E_A=W_AZ+b_A, E_B=W_BZ+b_B$

在这里插入图片描述
压缩：输出层特征受到大小限制且缺少全局信息，这里最简单的方式是通过一个全局平均池化将H和W压缩成一维向量。

多模态excitation：分别经过激活和点乘
在这里插入图片描述

cx_0401

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MMTM论文阅读

MMTM摘要介绍相关工作多模态传输模块参考论文MMTM: Multimodal Transfer Module for CNN Fusiongithub:https://github.com/haamoon/mmtm摘要后融合中，每个模态是分别经过单模态CNN后得到分数后再融合在一起。Multimodal Transfer Module作为本文提出的单元可以添加在特征层级的不同层级处，可以实现慢融合。利用压缩和激活操作，MMTM利用多个模态的知识去重新校准每个CNN流中的通道特征。不像其他的中间融合
复制链接

扫一扫