论文:MMTM: Multimodal Transfer Module for CNN Fusion
code:https://github.com/haamoon/mmtm
**简介:**这是一篇关于多模态融合方法的论文,多模态融合的目的就是从不同的模态中提取到互补的相关信息,从而达到比单模态更好的性能。模态融合的技术被广泛的使用到不同的深度学习任务中(视频分类、动作识别、情感识别和音频视觉语音增强等),现在的主流融合方法都是在网络最后的输出层进行融合。在这篇论文中,作者提出了一个简单的模态转换模块MMTM,可以添加到不同的特征层,使得模态之间的信息可以缓慢的融合。与其它的中间层融合方法不同,该模块可以在不同空间维度的卷积层进行特征融合。此外,该模块还可以很容易的添加到单模态网络结构中。
上图中,a代表早期的融合方式,在网络的首层融合;b代表后来的融合方式,在网络的尾端融合;c表示使用MMTM模块在网络的中间层进行融合。(尽管在神经学科和机器学习领域的研究认为在中间层进行特征融合更加有利于网络学习,但是在最后层融合依然是主流的融合方式,这是因为实验证明的结果)然而中间层融合需要对基础网络结构