ECCV2020语义分割——Virtual Multi-view Fusion for 3D Semantic Segmentation

(一)动机 Motivation

体素方法缺点:

  • 用于3D语义分割的最新技术(SOTA)方法使用3D稀疏体素卷积运算符来处理输入数据。例如,MinkowskiNet和SparseConvNet 各自将输入数据加载到稀疏3D体素网格中,并使用稀疏3D卷积提取特征。
  • 这些“placecentric”的方法旨在识别3D模式,因此对于具有独特3D形状的对象类型(例如椅子)效果很好,而对其他对象(例如墙面图片)效果不佳。它们还占用了大量内存,这限制了空间分辨率和/或批处理大小。

多视图方法缺点:

  • 当可获得posed RGB-D图像时,尝试使用为处理摄影RGB图像而设计的2D网络预测密集的特征和/或语义标签,然后将它们聚集在可见的3D表面上,或者将特征投影到可见的表面上,并在3D中将它们进一步卷积。
  • 尽管这些“view-centric”的方法利用了在大型RGB图像数据集上进行预训练的大规模图像处理网络,但由于在RGB-D扫描数据集中存在遮挡,光照变化和相机姿态未对准的困难,因此无法在标准3D分割基准上达到SOTA性能。在ScanNet基准测试的3D语义标签挑战赛中,基于视图的方法目前不在当前排行榜的上半部分。

(二)创新 Invocation

本文提出了一种新的基于视图的3D语义分割方法,该方法克服了先前方法的问题。关键思想是使用从3D场景的“虚拟视图”渲染的合成图像,而不是将处理限制为由物理相机获取的原始摄影图像。

这种方法具有几个优点,可以解决以前以视图为中心的方法遇到的关键问题。

  1. 首先,为虚拟视图with unnaturally wide field-of-view选择相机固有特性,以增加在每个渲染图像中观察到的上下文。
  2. 其次,在与场景表面的距离/角度变化较小,对象之间的遮挡相对较少以及表面覆盖范围较大的位置选择虚拟视点。
  3. 第三,通过背面的表面渲染非照片级的图像,而没有依赖于视图的照明效果和遮挡-即,虚拟视图可以从墙,地板和天花板后面观察场景,从而提供具有相对较大上下文和很少遮挡的视图。
  4. 第四,根据确切已知的虚拟视图相机参数将逐像素的预测汇总到3D表面上,因此不会在遮挡轮廓上遇到语义标签的“bleeding”。
  5. 第五,训练和推理期间的虚拟视图可以模仿多尺度训练和测试,并避免2D CNN的尺度不变性问题。
  6. 在训练和测试期间,可以生成任意数量的虚拟视图。在训练期间,由于数据扩充,更多的虚拟视图提供了鲁棒性。在测试期间,由于投票冗余,更多视图提供了鲁棒性。
  7. 最后,本文多视图融合方法中的2D分割模型可以受益于ImageNet和COCO之类的大图像预训练数据,而纯3D卷积方法则无法使用这些数据。

(三)贡献 Contribution

  1. 本文研究了使用各种消融研究将虚拟视图用于3D表面语义分割的想法。
  2. 发现虚拟摄像机支持的更广泛的视图选择设计空间可以显着提高多视图融合的性能,因为它允许我们包括物理上不可能但有用的视图(例如,墙后)。
  3. 与使用原始摄影图像相比,使用具有原始相机参数的虚拟视图
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值