1. 论文基本信息
发布于: NeurIPS 2021
2. 创新点
- 一种用于 3D 学习的可学习分层隐式表示,称为 OctField,它将最先进的分层数据结构与局部隐式函数相结合。
- 一种新颖的分层编码器-解码器网络,它将八叉树的构造建模为概率过程,并且能够以可微分的方式学习离散八叉树结构和表面几何形状。
3. 背景
几何3D表示往往需要优化以下六个方面:(1) 与任意拓扑的兼容性,(2) 建模精细几何细节的能力,(3) 对复杂形状的可扩展性,(4) 支持形状先验的有效编码,(5) 紧凑的内存占用,以及 (6) 高计算效率。
之前的问题:
- 局部隐函数的最新进展使神经隐式表示能够扩展到大场景。然而,这些方法所采用的3D空间的常规细分没有考虑到表面占用的稀疏性和几何细节的不同粒度。
- 使用全局函数对所有形状的整体进行编码,往往存在重建精度和形状通用性有限的问题。
- 使用局部学习的隐式函数,随着3D场景的体积呈立方增长,并且常规的网格也难以拓展到高分辨率实现高精度的重建。
4. Pipeline
OctField 利用八叉树结构来实现分层隐式表示,其中由八分区包围的部分几何由局部隐函数表示。OctField 根据表面几何的丰富性实现了建模能力的自适应分配。特别是,射流发动机、尾平面和车厢等复杂部分被自动细分为更多的隐式核,以提高建模精度,而机身上规则形状的部分使用足够粗级表示进行编码。(使用分类器来预测是否根据其封闭的几何特征细分当前单元)。
携带嵌入式隐式内核的八分区只会在表面周围分配。此外,只有包含复杂几何形状的八分体才会进一步划分。论文的分层 OctField 网络的 2D 说明。提出了一种新的递归编码器-解码器结构,并以 VAE 的方式训练网络。使用体素 3D CNN 对八分体的几何形状进行编码,并使用局部编码器 {Ei} 的层次结构递归地聚合结构和几何特征。解码是使用局部解码器{Di}的层次结构实现的,其镜像结构相对于编码器。结构和几何信息都被递归解码,并使用每个八分区内的隐式八分区解码器恢复局部表面。
4.1. Octree Construction
要细分的八分区必须同时满足两个要求:
(1) 八分区包围感兴趣的表面,物体表面;
(2) 其封闭的几何图形需要具有足够的复杂性,值得细分。s使用表面的正态方差作为其几何复杂性的指标。
其中ni x, ni y, ni z为曲面上第 i 个采样点法向量ni的x, y, z分量;{ni x}表示ni x的集合;V(·)计算输入的变化,而 Ei(·) 返回期望。在我们的实验中,我们对预先计算采样点的表面进行常规采样。我们重复分解,直到达到预定义的深度 d 或 V(S) 小于预设阈值 τ。
4.2. Local Implicit Representation
论文中将表面占用率编码为:
,其中Dθd为可训练参数 θd 的学习隐式解码器,ci为局部潜码,N(·)根据八分区的边界框将输入坐标归一化到[−1,1]的范围内。为了防止八分区边界上的不连续性,我们建议扩大每个八分区,使其与同一级别的相邻八分区重叠。在我们的实现中,我们让每个八分区沿轴方向与其邻居重叠 50%。当查询重叠区域的隐含值时,我们对与该查询位置相交的所有八分区执行三线性插值。
4.3. Hierarchical OctField Network
八分区 Oi 的潜在代码 ei = (gi, αi, βi) 是三部分的串联:(1)编码局部 3D 形状的几何特征 gi; (2) 表示八分区是否包围任何 3D 表面的二进制占用指标 αi; (3) 二进制几何细分指标 βi,表示封闭的几何形状是否足够复杂,需要进一步细分。
4.4. Hierarchical Encoder
对于每个八分区 Oi,我们首先根据其封闭的几何形状计算其二进制指标(αi,βi)。特别是,如果 Oi 内部存在表面,则 αi 设置为 1,否则为 0。如果 Oi 的封闭几何形状(如果 αi = 1)满足第 3.1 节中详述的细分标准,则 βi 设置为 1,否则为 0。然后,我们通过将 Oi 的封闭体素化几何 Gi 传递给体素 CNN V 来提取 Oi 的几何特征 gi。在进行更高级别时,我们的网络将儿童的潜在特征聚合到其父八分区中。特别是,对于父八分区 Ok,我们将其子节点的八分区特征表示为 {ecj = (gcj , αcj , βcj) | cj ∈ Ck},其中 Ci 表示 Ok 的子八分。然后,它的编码器Ek将Ok的子八分体的潜在特征聚合到Ok的几何特征gk中。
分层编码器ek和解码器Dk的体系结构。Ek通过MLP、最大池化操作和另一个MLP将子八分体的结构(αcj, βcj)和几何gcj特征收集到其父八分圆k,其中cj∈Ck。Dk通过两个 MLP 和分类器将父八进特征 gk 解码为特征 {gcj } 和两个指标 αcj ,其子八分之一的 βcj。两个指标分别推断表面占用率的概率和进一步细分的必要性。
5. 💎实验成果展示
形状重建的定量评价。在此表中,告了五个类别的 CD (×10−4) 和 EMD(地球移动距离 用于比较生成形状与真实形状之间的差异) (×10−2) 分数(越小越好)。OctField 通过比较六个基线(IM-Net、OccNet、局部隐式网格、自适应 O-CNN 、ConvOccNet 和 OGN)可以在平均分数和每个类别上取得最佳性能。
展示了局部单元和内存在不同分解级别上的消耗。(由于论文中的方法需要维护八叉树结构、在低分辨率情况的消耗更大)
与 LIG 相比,论文的结果能够捕获更细粒度的几何和结构细节。引入层次结构的其他两种方法也表现良好。虽然可以直接从NGLOD的SDF渲染生成高质量的可视化结果。然而,从隐式场中提取网格可能会导致重建精度的损失。
6. 🔍问题分析
改进方向:可以将语义信息纳入八叉树的组织,以编码结构信息并实现对部分级几何的灵活编辑