2020年6月26日
MSN: Modality Separation Networks for RGB-D Scene Recognition 是由 Xiong et al. 发表在SCI二区Neurocomputing的一篇关于RGB-D场景识别的论文。
一、摘要:
由于场景布局复杂且对象杂乱,基于RGB-D图像的室内场景识别是一项艰巨的任务。尽管深度模态可以提供额外的几何信息,但是如何更好地学习多模态特征仍然是一个悬而未决的问题。考虑到这一点,在本文中,我们提出了模态分离网络,以同时提取模态一致和模态特定的特征。这项工作的动机来自两个方面:1)第一个是学习每种模式的独特之处,以及明确地了解两种模式之间的共同之处。 2)第二个是探索全局/局部特征与特定于模态/一致特征之间的关系。为此,提出的框架包含两个子模块分支,以学习多模式特征。一个分支用于通过最小化两个模态之间的相似性来提取每个模态的特定特征。另一个分支是通过最大化相关项来学习两种模态之间的公共信息。此外,借助空间关注模块,我们的方法可以可视化不同子模块关注的空间位置。我们在两个公共RGB-D场景识别数据集上评估了我们的方法,并通过提出的框架获得了最新的技术成果。
二、三个贡献:
1)我们提出了一个两分支模态分离网络,以明确学习模态特定和模态一致的特征。 全局模态特定(GMS)和局部模态一致性(LMC)特征学习模块旨在同时学习特定于模态的特征和一致特征。