【论文阅读】——RGBD分割也能实时？Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis

最新推荐文章于 2025-02-22 17:15:26 发布

农夫山泉2号

最新推荐文章于 2025-02-22 17:15:26 发布

阅读量3.4k

点赞数 2

分类专栏：深度学习文章标签： rgbd 语义分割室内场景

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011622208/article/details/112778395

版权

深度学习专栏收录该内容

84 篇文章

订阅专栏

code:https://github.com/TUI-NICR/ESANet#time-inference

摘要: 摘要—全面分析场景对于在不同环境中行动的机器人至关重要。语义分割可以增强各种后续任务，例如（语义辅助）人的感知，（语义）自由空间检测，（语义）映射和（语义）导航。在本文中，我们提出了一种高效且强大的RGB-D分割方法，该方法可以使用NVIDIA TensorRT进行高度优化。我们表明RGB-D分割优于处理RGB仅用于图像，并且如果仍然可以实时执行网络架构是经过精心设计的。
在这里插入图片描述

1. 简介

…

2. 模型

模型的设计上，参考了swift net，pspnet， unet。

在encoder部分对RGB，Depth图像分别采用了一个类似resnet的模型，然后有阶段性的融合
encoder的最后采用了一个类似pspnet中的特征增强模块
decoder上采用了Multi-Scale Supervision，inception模型中的33卷积分解成13,3*1
decoder上还采用了类似unet的特征融合策略，来弥补decoder上采样时细节的丢失信息
所有的上采样采用learned up，区别于双线性上采样。

2.1 上采样方式的比较

反卷积：比bilinear的计算更耗时，会引起网格化现象
双线性上采样：主要都是采用这种方式
learned up：论文采用的方式；我们首先使用最近邻居上采样来扩大分辨率。然后，应用3×3深度卷积来组合相邻特征。我们初始化内核，使整个学习的上采样最初模仿双线性插值。但是，我们的网络能够在训练过程中调整权重，因此可以学习如何以更有用的方式组合相邻特征。总结：就是一种可学习的双线性上采样

4. 实验

在SUNRGB-D和NYUv2数据集上做了相关测试。采用resnet34的变体，可以做到精度和实时的平衡
在这里插入图片描述

在这里插入图片描述

使用CM，Skip，SE模块的重要性
使用learned up比bilinear，nearest

4.1 cityscapes

在这里插入图片描述
在机器人上的使用：
vedio

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。