【论文阅读】——RGBD分割也能实时?Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis

code:https://github.com/TUI-NICR/ESANet#time-inference

摘要: 摘要—全面分析场景对于在不同环境中行动的机器人至关重要。语义分割可以增强各种后续任务,例如(语义辅助)人的感知,(语义)自由空间检测,(语义)映射和(语义)导航。在本文中,我们提出了一种高效且强大的RGB-D分割方法,该方法可以使用NVIDIA TensorRT进行高度优化。我们表明RGB-D分割优于处理RGB仅用于图像,并且如果仍然可以实时执行网络架构是经过精心设计的。
在这里插入图片描述

1. 简介

2. 模型

模型的设计上,参考了swift net,pspnet, unet。

  • 在encoder部分对RGB,Depth图像分别采用了一个类似resnet的模型,然后有阶段性的融合
  • encoder的最后采用了一个类似pspnet中的特征增强模块
  • decoder上采用了Multi-Scale Supervision,inception模型中的33卷积分解成13,3*1
  • decoder上还采用了类似unet的特征融合策略,来弥补decoder上采样时细节的丢失信息
  • 所有的上采样采用learned up,区别于双线性上采样。
    在这里插入图片描述

2.1 上采样方式的比较

  • 反卷积:比bilinear的计算更耗时,会引起网格化现象
  • 双线性上采样:主要都是采用这种方式
  • learned up:论文采用的方式;我们首先使用最近邻居上采样来扩大分辨率。 然后,应用3×3深度卷积来组合相邻特征。 我们初始化内核,使整个学习的上采样最初模仿双线性插值。 但是,我们的网络能够在训练过程中调整权重,因此可以学习如何以更有用的方式组合相邻特征。总结:就是一种可学习的双线性上采样
    在这里插入图片描述

4. 实验

在SUNRGB-D和NYUv2数据集上做了相关测试。采用resnet34的变体,可以做到精度和实时的平衡
在这里插入图片描述

在这里插入图片描述

  • 使用CM,Skip,SE模块的重要性
  • 使用learned up比bilinear,nearest

4.1 cityscapes

在这里插入图片描述
在机器人上的使用:
vedio

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值