Chen H, Li Y. Three-stream attention-aware network for RGB-D salient object detection[J]. IEEE Transactions on Image Processing, 2019, 28(6): 2825-2835.
摘要:
以前的基于卷积神经网络的RGB-D融合系统通常采用两流体系结构,其中RGB和深度输入是独立学习的。多模态融合阶段通常是通过在推理过程中将来自每个流的深度特征进行级联来执行的。由于以下两个限制,传统的两流体系结构可能无法实现多模式融合:1)很少在自下而上的路径中研究交叉模式的互补性,我们认为交叉模式的互补性可以结合起来学习新的区分特征以扩大RGB-D表示社区,以及2)交叉模式通道通常通过未区分的级联来组合,这对于选择交叉模式互补特征似乎是模棱两可的。在本文中,我们通过提出一种新颖的三流注意力感知多模式融合网络来解决存在的这两个限制。本文所提出的体系结构引入了一种跨模式的精炼流以及RGB流和深度图流,目的是在自下而上的路径的每个级别中提取新的RGB-D特征。此外,将通道注意机制创新地引入了交叉模式跨级别融合问题,以从每个级别的每个模态自适应地选择互补特征图。大量实验报告了所提出的体系结构的有效性以及对最新RGB-D显着目标检测方法的显着改进。
实验模型及创新性:
使用VGG-16作为三条自底向上的backbone,去除了全连接层,保留了5个卷积块。另外,添加了一个新的卷积核尺寸为15*15的全局上下文推理层,作为第6个卷积块。所提出的RGB-D显著检测系统包含三个自底向上流,RGB特定流,深度图特定流和多模态融合流,以此去提取每一层的多模态和新的RGB-D表示。对于深度图特定流,将单通道深度图编码为3通道HHA作为输入。HHA与原始深度图(例如,表面法线和高度)相比,具有更多的几何线索,并且可以通过训练过的VGG模型来初始化深度图特定流。推理阶段由自上而下的注意感知融合路径强制执行,在该路径中,自适应选择跨模式跨级别补码并将其组合以进行联合多模式多级别预测。可以以端到端的方式训练整个网络。