提出了 OctNet,一种使用稀疏 3D 数据进行深度学习的表示形式。与现有模型相比,我们的表示能够实现深度和高分辨率的 3D 卷积网络。为了实现这一目标,我们利用输入数据的稀疏性,使用一组不平衡八叉树对空间进行分层分区,其中每个叶节点存储一个池化特征表示。这允许将内存分配和计算集中到相关的密集区域,并在不影响分辨率的情况下实现更深的网络。我们通过分析分辨率对多个 3D 任务(包括 3D 对象分类、方向估计和点云标记)的影响,展示了 OctNet 表示的实用性。
1介绍
在过去的几年里,卷积网络在计算机视觉的许多领域带来了显着的性能提升。在大多数情况下,网络的输入具有二维性质,例如在图像分类、对象检测或语义分割中。然而,3D 重建和图形的最新进展允许捕获和建模大量 3D 数据。同时,大型3D存储库如ModelNet、ShapeNet或 3D 仓库11