MMAF-Net：基于多模态注意机制的RGB-Depth融合的语义分割模型

3D感知巨头

于 2021-04-20 22:20:24 发布

阅读量4.2k

点赞数 3

分类专栏：语义分割文章标签：计算机视觉深度学习自动驾驶多模态数据融合 RGB-D融合

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013531940/article/details/115917046

版权

语义分割专栏收录该内容

8 篇文章

订阅专栏

目录

三、Background

五、Experiments

论文阅读时间：2021-4-20 20:07:56

一、Title

Multi-Modal Attention-based Fusion Model for Semantic Segmentation of RGB-Depth Images

二、arXiv

arXiv

三、Background

基于注意力机制的融合模块受注意力机制的启发，该网络注重于feature maps的channel-wise recalibration，对通道的dependency进行建模。从两个编码器的RGB和深度通道提取的中间特征图作为基于注意力机制的融合块的输入。基于注意力机制的融合块计算attention maps，attention maps再乘以输入的feature maps以进行自适应特征融合。基于注意力机制的融合模块由通道方向和空间方向的注意力机制组成，来构建attention maps。因此，基于两种模态在不同通道之间的相互依赖性来融合它们的feature maps。图2说明了基于注意力机制的融合块的架构。此外，每个AFB之后是lightweight chained redisual pooling layers，用于考虑解码器侧的全局上下文信息。

四、Model

MMAF-Net以RGB和深度模态的两个编码器分支同时作为输入，同时包含一个解码器分支。在解码器分支中，基于新提出的注意融合模块，融合同一分辨率下两个编码器分支的特征图，将外观和3D特征图结合起来。这些融合的feature map被用来恢复编码器的信息丢失，并产生高分辨率的预测输出。

提出的模型利用ResNet模型(Convi-x)的residual blocks作为两个独立的编码器分支。在deep residual network中使用identity map函数。

encoder branch的residual block的输出作为long跳跃连接，被馈送到解码器的4个级联子模块，称为多模态多分辨率融合（MRF）模块。MRF模块的结构见下图。

五、Experiments

Experiment 1

Experiment 2

Experiment 3

Experiment 4

论文阅读时间：2021-4-20 20:07:56

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

3D感知巨头 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。