Review on Indoor RGB-D Semantic Segmentation with Deep Convolutional Neural Networks
室内RGB-D语义分割与深度卷积神经网络综述
Barchid S, Mennesson J, Djéraba C. Review on indoor RGB-D semantic segmentation with deep convolutional neural networks[C]//2021 International Conference on Content-Based Multimedia Indexing (CBMI). IEEE, 2021: 1-4.
摘要
许多研究工作关注于利用室内深度传感器的互补几何信息,在由深度卷积神经网络执行的视觉任务中,特别是语义分割。这些工作涉及一种称为“RGB-D室内语义分割”的特定视觉任务。这个任务的挑战和结果解决方案与其标准的RGB对应物不同。这导致了一个新的活跃研究课题。本文的目标是介绍用于RGB-D室内语义分割的深度卷积神经网络领域。该综述介绍了最流行的公共数据集,提出了近期贡献所采用的策略的分类,评估了当前最先进技术的性能,并讨论了剩余的挑战和未来工作的有希望的方向。
关键词—RGB-D室内语义分割,深度卷积神经网络,深度学习
I. 引言
语义分割是计算机视觉中的基本任务。它在许多应用中都是必需的,如机器人导航,AR/VR等。室内环境中的语义分割具有挑战性,因为场景杂乱,光照变化大,摄像头姿势不同,物体外观也不同。在过去的十年里,计算机视觉借助深度学习和深度卷积神经网络(DCNN)[1]取得了巨大进展,包括语义分割[2]。随着室内环境中精确深度传感器的出现,语义分割模型能够利用场景的深度信息以及标准的RGB图像,以改善分割性能。这些模型解决了一种称为“RGB-D(深度)室内语义分割”的特定视觉任务。本文的目标是介绍使用DCNN进行RGB-D室内语义分割的领域,从主要方面到当前最先进的解决方案。
本文组织如下:第二节阐述了语义分割的基本概念。第三节分析了RGB-D分割论文中使用的主要数据集。第四节概述和分类了最先进方法。第五节报告了当前最先进技术的定量性能。最后,第六节总结了我们的工作。
II. 初步概念
本节讨论与语义分割相关的基本概念。我们介绍了一个公式以及常用的度量标准。考虑到RGB-D分割领域与其RGB对应物密切相关,我们还简要介绍了RGB语义分割。
A. 语义分割的公式
我们将语义分割任务定义如下:给定输入的RGB图像 I ∈ R H × W × 3 I ∈ R^{H×W×3} I∈RH×W×3,目标是产生一个输出的语义分割图 S ∈ R H × W × C S ∈ R^{H×W×C} S∈RH×W×C,其中C是语义类别的数量。换句话说,对于RGB图像的每个H×W像素,语义分割任务会生成一个关于C个类别的概率分布。在RGB-D环境中,除了RGB输入外还提供了深度图 D ∈ R H × W D ∈ R^{H×W} D∈RH×W,以提高预测分割图的准确性。
B. 度量标准
用于评估分割模型准确性的两个最流行的度量标准是像素准确率(PA)和平均交并比(mIoU)。PA可以粗略地描述为S中正确预测的像素的比率。mIoU是预测的S与地面真相之间所有交集的平均值除以它们的并集。由于能够比较两个集合之间的相似性,mIoU被认为是更好的度量标准,并在第V节中用于评估最先进的模型。
C. 基于DCNN的RGB语义分割概述
最近最先进的分割网络可以根据用于设计DCNN的架构类型分为两种范式。
第一种范式是编码器-解码器架构[3]。它由两个主要模块组成:编码器和解码器。编码器通常是一个标准的骨干网络[4],旨在提取将馈送到解码器部分的特征。解码器恢复由编码器深层部分丢失的空间信息,以重构语义分割图。
第二种范式[5]基于空洞卷积[6]。空洞卷积是标准卷积的变体,引入了另一个称为扩张率的参数。扩张率确定了卷积核中数值之间的间隔。它扩大了生成特征图的感受野,并保持了高分辨率,即使在网络的后期阶段也是如此。
III. 现有基准数据集
为了评估室内语义分割模型的性能,现有各种公共数据集可供使用。在本节中,我们介绍了最流行的语义分割RGB-D数据集,并分析了与这些数据集(以及室内数据集一般)相关的主要挑战。为简化起见,我们不提及可能在所呈现的数据集中提供的附加注释(用于姿态估计、3D重建等)。更多细节可在[7]的表3中找到。
-
NYUv2 [8]:这个数据集是用于RGB-D室内分割最流行的数据集。它包含1449张带有像素级标签和深度图像的图像,这些图像是使用分辨率为640×480的Microsoft Kinect深度传感器拍摄的。数据集分为795张图像的训练集和654张图像的测试集。NYUv2最初有13个不同的类别。然而,最近的模型大多使用更具挑战性的40类设置来评估其性能。
-
SUN-RGBD [10],[11]:这个数据集提供了10335张RGBD图像及其相应的语义标签。它包含由不同深度相机(Intel RealSense、Asus Xtion、Kinect v1/2)拍摄的图像,因为它们是从先前的数据集中收集的。因此,图像的分辨率取决于所使用的传感器。SUN-RGBD有37种对象类别。训练集包含5285张图像,测试集包含5050张图像。
-
SceneNet RGB-D [12]:这个数据集由500万个真实感的合成室内场景的240×320图像组成。这些合成场景是随机生成的,其中包含255个不同的类别的物体,通常被重新组合成与NYUv2相同的13类设置。由于标注数据的数量很大,SceneNet RGB-D非常适合在稀疏的真实世界数据集上进行预训练分割模型,然后进行微调。
-
Stanford 2D-3D-S [13]:这是一个大规模数据集,包含70496张RGB图像及其相关的深度图像。这些图像的分辨率为1080×1080,并以360°扫描的方式收集。通常采用的类别设置是13个类别。
-
Matterport3D [14]:与Stanford 2D-3D-S类似,这个数据集是一个最近的大型数据集,由194400个全景RGB-D数据组成,分辨率为1024×1280。数据集包含总共50811个实例标注,分为40个语义类别。
需要提及的主要问题是室内数据集中类别的重要不平衡分布。一些类别(如“墙”或“地板”)几乎覆盖整个数据集,而其他标签则有很少的样本。这导致对过度表示的类别的重要偏差和对稀有对象(通常是特定场景中的稀有对象,如电视或黑板)的性能不佳。另一方面,深度传感器的质量也是需要考虑的重要特征。与当前深度传感器的性能相比,由较早的数据集(如NYUv2或SUN-RGBD)收集的深度图像不够准确。图1显示了来自不同数据集的深度图像的示例。正如在NYUv2示例中所看到的,早期的深度传感器提供非平滑的深度图像,并带有许多伪影,而与更近期的2D-3D-S示例相反。由于数据的合成特性,SceneNet RGB-D的完美标注示例在实践中是无法实现的。因此,这可能导致特征提取效果不佳。最后,我们还可以观察到,即使它们具有上述所有缺点,大多数研究论文仍然只关注于NYUv2和SUN-RGBD。它们的另一个问题是可用图像数量有限,特别是对于数据需求量大的机器学习算法,如深度学习算法,这些数据并不适用。
IV. RGB-D分割模型概述
深度信息提供了额外的几何信息,可以使RGB语义分割模型受益[15]。然而,在DCNN内部完美地合并这两种模态的方法尚未建立。因此,许多研究论文提出了不同的方法来解决这个问题,主要基于标准DCNN遵循编码器-解码器范例(详见第II节)。本节提出了对当前最先进论文的分类,具体取决于深度特征如何被合并到标准DCNN中,并讨论了每个类别的优缺点。图2说明了讨论的三种策略。
A. 深度作为输入
这种方法[15]–[20]是最流行的,也是第一个尝试在DCNN中利用深度的方法。它使用深度图像作为RGB图像的附加输入,以提取更多特征。深度和RGB图像被馈送到DCNN的分离分支中,然后提取的特征被融合以生成分割掩模。基于此策略的研究工作根据设计模型的融合方式而异[7]。尽管这种方法很直观,但主要问题是由于需要为每个模态复制DCNN的模块而增加了计算复杂性和内存成本。
B. 深度作为操作
最初由[21]设计,这一范式的主要思想[22]–[24]是修改一些操作(如卷积和池化)以考虑深度信息。DCNN的操作不是将深度图作为输入,而是直接根据深度进行修改。例如,[21]设计了一个卷积和一个池化操作,根据深度相似度项调整其权重,假设相同深度的相邻像素通常属于同一类。这种方法的主要优势在于减少了处理两种模态的附加复杂性,同时仍然利用了深度图像中像素之间的几何关系。
C. 深度作为预测
与之前的范式相反,这种最新的策略[24],[25]在推断时不使用深度图,而只在训练步骤中使用。其目标是设计一个DCNN,它将从RGB图像预测分割和深度图。通过这种方式,模型学习隐式提取辅助深度预测任务中的补充几何信息。然后,两个任务相关的特征可以合并在一起,以改进两个预测,包括目标分割任务。像“深度图作为输入”的策略一样,它需要额外的复杂性,因为需要在DCNN中复制一些部分。然而,与前两种策略不同,它不需要任何深度传感器,并且可以自主预测深度。因此,它使得可以使用更便宜的RGB相机进行室内应用,这些应用需要深度图像用于额外任务。
V. 性能分析
在本节中,我们报告了最先进模型在两个最流行的基准测试中的性能:NYUv2 [8] 和 SUN-RGBD [10],[11]。表I列出了每个模型在NYUv2和SUN-RGBD(如果有的话)中的性能结果(以mIoU为单位)。还包括了第四节中定义的分类。此外,我们还包括了在第IV节[19]中报告的FPS测量结果,使用的是NVIDIA Jetson AGX Xavier。还报告了编码器部分中使用的主干网络的类型和数量。
结果表明,“深度作为输入”和“深度作为预测”策略使用了多个主干网络,而不是一个,从而证实了由于模型中的部分重复而产生的计算和内存复杂性问题。最近的“深度作为预测”策略似乎是一种有希望的策略,[25]以大幅度领先的成绩取得了最新的结果。至于推理速度,很少有论文实现了实时性能(即 24:0 FPS)。然而,室内应用通常在低功耗设备上运行,因此需要轻量级和快速的模型,而许多报告的方法却做不到这一点。为解决这个问题,“深度作为操作”似乎是一个不错的解决方案,因为它使用了独特的编码器主干网络,并且在DCNN内部高效利用了深度信息。另一种解决方案是利用轻量级主干网络,例如Mobilenetv2 [26],以减少编码器的复杂性。
VI. 结论
在本文中,我们简要介绍了RGBD室内语义分割领域,以便对当前最先进的技术有一个良好的了解。我们介绍了语义分割的基本概念。我们回顾了最流行的RGBD数据集,并讨论了它们的主要挑战。我们根据在DCNN内部利用深度特征的方式提出了最近工作的分类。此外,我们报告了最先进模型中发现的性能。最后,在此回顾过程中,我们观察到许多最近的最先进模型仍然专注于分辨率较低的较小旧数据集。我们相信,未来的工作必须利用最新的大规模数据集的优势,以大幅度提高结果。
致谢
本工作部分得到了IRCICA USR 3380(法国国家科学研究中心,里尔大学,59000里尔,法国)的支持。
REFERENCES
[1] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” Advances in neural information processing systems, vol. 25, pp. 1097–1105, 2012.
[2] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3431–3440.
[3] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in International Conference on Medical image computing and computer-assisted intervention. Springer, 2015, pp. 234–241.
[4] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.
[5] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,” IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 4, pp. 834–848, 2017.
[6] F. Yu and V. Koltun, “Multi-scale context aggregation by dilated convolutions,” arXiv preprint arXiv:1511.07122, 2015.
[7] F. Fooladgar and S. Kasaei, “A survey on indoor rgb-d semantic segmentation: from hand-crafted features to deep convolutional neural networks,” Multimedia Tools and Applications, vol. 79, no. 7, pp. 4499–4524, 2020.
[8] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus, “Indoor segmentation and support inference from rgbd images,” in European conference on computer vision. Springer, 2012, pp. 746–760.
[9] S. Gupta, P. Arbelaez, and J. Malik, “Perceptual organization and recognition of indoor scenes from rgb-d images,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2013, pp. 564–571.
[10] S. Song, S. P. Lichtenberg, and J. Xiao, “Sun rgb-d: A rgb-d scene understanding benchmark suite,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 567–576.
[11] A. Janoch, S. Karayev, Y. Jia, J. T. Barron, M. Fritz, K. Saenko, and T. Darrell, “A category-level 3d object dataset: Putting the kinect to work,” in Consumer depth cameras for computer vision. Springer, 2013, pp. 141–165.
[12] J. McCormac, A. Handa, S. Leutenegger, and A. J. Davison, “Scenenet rgb-d: 5m photorealistic images of synthetic indoor trajectories with ground truth,” arXiv preprint arXiv:1612.05079, 2016.
[13] I. Armeni, S. Sax, A. R. Zamir, and S. Savarese, “Joint 2d-3d-semantic data for indoor scene understanding,” arXiv preprint arXiv:1702.01105, 2017.
[14] A. Chang, A. Dai, T. Funkhouser, M. Halber, M. Niessner, M. Savva, S. Song, A. Zeng, and Y. Zhang, “Matterport3d: Learning from rgb-d data in indoor environments,” arXiv preprint arXiv:1709.06158, 2017.
[15] S.-J. Park, K.-S. Hong, and S. Lee, “Rdfnet: Rgb-d multi-level residual feature fusion for indoor semantic segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 4980–4989.
[16] J. Jiang, L. Zheng, F. Luo, and Z. Zhang, “Rednet: Residual encoder-decoder network for indoor rgb-d semantic segmentation,” arXiv preprint arXiv:1806.01054, 2018.
[17] X. Hu, K. Yang, L. Fei, and K. Wang, “Acnet: Attention based network to exploit complementary features for rgbd semantic segmentation,” in 2019 IEEE International Conference on Image Processing (ICIP). IEEE, 2019, pp. 1440–1444.
[18] Y. Xing, J. Wang, X. Chen, and G. Zeng, “Coupling two-stream rgb-d semantic segmentation network by idempotent mappings,” in 2019 IEEE International Conference on Image Processing (ICIP). IEEE, 2019, pp. 1850–1854.
[19] D. Seichter, M. K¨ohler, B. Lewandowski, T. Wengefeld, and H.-M. Gross, “Efficient rgb-d semantic segmentation for indoor scene analysis,” arXiv preprint arXiv:2011.06961, 2020.
[20] X. Chen, K.-Y. Lin, J. Wang, W. Wu, C. Qian, H. Li, and G. Zeng, “Bi-directional cross-modality feature propagation with separation-and-aggregation gate for rgb-d semantic segmentation,” in ECCV, 2020.
[21] W. Wang and U. Neumann, “Depth-aware cnn for rgb-d segmentation,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 135–150.
[22] Y. Xing, J. Wang, and G. Zeng, “Malleable 2.5d convolution: Learning receptive fields along the depth-axis for RGB-D scene parsing,” in Computer Vision - ECCV 2020 - 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part XIX, ser. Lecture Notes in Computer Science, A. Vedaldi, H. Bischof, T. Brox, and J. Frahm, Eds., vol. 12364. Springer, 2020, pp. 555–571. [Online]. Available: https://doi.org/10.1007/978-3-030-58529-7 33
[23] Y. Xing, J. Wang, X. Chen, and G. Zeng, “2.5 d convolution for rgbd semantic segmentation,” in 2019 IEEE International Conference on Image Processing (ICIP). IEEE, 2019, pp. 1410–1414.
[24] Y. Chen, T. Mensink, and E. Gavves, “3d neighborhood convolution: Learning depth-aware features for rgb-d and rgb semantic segmentation,” in 2019 International Conference on 3D Vision (3DV). IEEE, 2019, pp. 173–182.
[25] J. Jiao, Y. Wei, Z. Jie, H. Shi, R. W. Lau, and T. S. Huang, “Geometry-aware distillation for indoor semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 2869–2878.
[26] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen, “Mobilenetv2: Inverted residuals and linear bottlenecks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 4510–4520.