用于RGB-D语义分割的全局-局部传播网络

最新推荐文章于 2023-08-25 07:30:42 发布

小白学视觉

最新推荐文章于 2023-08-25 07:30:42 发布

阅读量662

点赞数

文章标签：人工智能深度学习计算机视觉编程语言机器学习

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

深度信息在RGB-D语义分割任务中很重要，它为彩色图像提供了额外的几何信息。现有的方法大多采用多级融合策略将深度特征传播到RGB分支。然而，在非常深的阶段，以简单的元素相加方式传播并不能充分利用深度信息。为了解决这一问题，作者提出了全局-局部传播网络(GLPNet)。引入局部上下文融合模块(L-CFM)在元素融合前对两种模式进行动态对齐，引入全局上下文融合模块(G-CFM)对多模态全局上下文特征进行联合建模，将深度信息传播到RGB分支。大量的实验证明了该融合模块的有效性和互补性。作者的GLPNet将两个融合模块嵌入到一个双流编码器-解码器结构中，从而在两个具有挑战性的室内场景分割数据集(即ny - depth v2和SUN-RGBD数据集)上实现了最先进的性能。

论文创新点

提出了利用深度特征和RGB特征互补模式的全局-局部传播网络(global - local Propagation Network, GLPNet)，设计了一个局部上下文融合模块(local context fusion module, L-CFM)和一个全局上下文融合模块(global context fusion module, G-CFM)，分别解决了特征融合中的空间失调和语义传播问题。L-CFM不是直接向RGB分支添加深度特征，而是在模式融合之前动态地对两种模式的特征进行对齐。其中，对齐过程是根据卷积层预测的偏移量，同时扭曲两种模式的特征映射。卷积层的设计灵感来自于视频处理领域的光流和语义流[4]。此外，提出了通过联合多模态上下文建模将深度特征传播到RGB分支的G-CFM算法。具体来说，作者从两种模式中提取全局上下文特征，并使用注意机制将其聚合到每个RGB像素。与L-CFM精确对齐两种模式的局部特征相比，G-CFM旨在从全局语境的角度利用深度信息。考虑到本文提出的两个融合模块从全局和局部的正交角度帮助深度特征传播，将它们并行结合进一步提高了深度阶段的传播效率。

本文提出的GLPNet在两个具有挑战性的RGB-D语义分割数据集上实现了最新的性能，即NYU-Depth v2 和 SUN-RGBD数据集。

框架结构

作者的GLPNet概述。在最后阶段作者使用扩张策略，整体步幅为16。

实验结果

G-CFM对NYU-Depth v2测试集的两个示例gbd对预测的池掩码的可视化。为了节省空间，作者为每个模式提供了5个具有高度代表性的掩码(15个)。

SUN-RGBD测试集对比结果

结论

作者提出了用于RGB-D语义分割的GLPNet。GLPNet帮助信息在深度阶段从深度支路传播到RGB支路。局部上下文融合模块在融合前对两种模式进行动态对齐，全局上下文融合模块通过联合多模态上下文建模进行深度信息传播。大量的消融实验验证了本文方法的有效性，GLPNet在两个室内场景分割数据集上取得了最新的性能，即NYU-Depth v2和SUN-RGBD数据集。

论文链接：https://arxiv.org/pdf/2101.10801.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

- END -

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~