ECCV2020语义分割——Virtual Multi-view Fusion for 3D Semantic Segmentation

最新推荐文章于 2024-06-20 15:18:04 发布

置顶

橘子果酱CV

最新推荐文章于 2024-06-20 15:18:04 发布

阅读量1.4k

点赞数 2

分类专栏：三维点云文章标签：计算机视觉神经网络人工智能 python

本文链接：https://blog.csdn.net/Dujing2019/article/details/109206794

版权

本文提出了一种基于虚拟视图的3D语义分割方法，通过渲染合成图像克服了体素方法和多视图方法的局限。使用虚拟视点、宽视场、多尺度采样和附加通道，解决了遮挡、尺度不变性等问题，提升了3D语义分割的性能。在ScanNet基准测试中，该方法表现优于其他多视图和3D卷积方法。

摘要由CSDN通过智能技术生成

体素方法缺点：

用于3D语义分割的最新技术（SOTA）方法使用3D稀疏体素卷积运算符来处理输入数据。例如，MinkowskiNet和SparseConvNet 各自将输入数据加载到稀疏3D体素网格中，并使用稀疏3D卷积提取特征。
这些“placecentric”的方法旨在识别3D模式，因此对于具有独特3D形状的对象类型（例如椅子）效果很好，而对其他对象（例如墙面图片）效果不佳。它们还占用了大量内存，这限制了空间分辨率和/或批处理大小。

多视图方法缺点:

当可获得posed RGB-D图像时，尝试使用为处理摄影RGB图像而设计的2D网络预测密集的特征和/或语义标签，然后将它们聚集在可见的3D表面上，或者将特征投影到可见的表面上，并在3D中将它们进一步卷积。
尽管这些“view-centric”的方法利用了在大型RGB图像数据集上进行预训练的大规模图像处理网络，但由于在RGB-D扫描数据集中存在遮挡，光照变化和相机姿态未对准的困难，因此无法在标准3D分割基准上达到SOTA性能。在ScanNet基准测试的3D语义标签挑战赛中，基于视图的方法目前不在当前排行榜的上半部分。

本文提出了一种新的基于视图的3D语义分割方法，该方法克服了先前方法的问题。关键思想是使用从3D场景的“虚拟视图”渲染的合成图像，而不是将处理限制为由物理相机获取的原始摄影图像。

这种方法具有几个优点，可以解决以前以视图为中心的方法遇到的关键问题。

首先，为虚拟视图with unnaturally wide field-of-view选择相机固有特性，以增加在每个渲染图像中观察到的上下文。
其次，在与场景表面的距离/角度变化较小，对象之间的遮挡相对较少以及表面覆盖范围较大的位置选择虚拟视点。
第三，通过背面的表面渲染非照片级的图像，而没有依赖于视图的照明效果和遮挡-即，虚拟视图可以从墙，地板和天花板后面观察场景，从而提供具有相对较大上下文和很少遮挡的视图。
第四，根据确切已知的虚拟视图相机参数将逐像素的预测汇总到3D表面上，因此不会在遮挡轮廓上遇到语义标签的“bleeding”。
第五，训练和推理期间的虚拟视图可以模仿多尺度训练和测试，并避免2D CNN的尺度不变性问题。
在训练和测试期间，可以生成任意数量的虚拟视图。在训练期间，由于数据扩充，更多的虚拟视图提供了鲁棒性。在测试期间，由于投票冗余，更多视图提供了鲁棒性。
最后，本文多视图融合方法中的2D分割模型可以受益于ImageNet和COCO之类的大图像预训练数据，而纯3D卷积方法则无法使用这些数据。

关注

专栏目录