In-Place Scene Labelling and Understanding with Implicit Scene Representation

论文介绍了一种扩展的NeRF模型,将几何、外观和语义联合编码,仅依赖少量现场注释就能生成高质量的2D语义标签。方法利用多视图一致性与平滑性,有效处理稀疏或噪声场景,适用于机器人等领域的场景标记和理解应用。
摘要由CSDN通过智能技术生成

 用nerf做语义分割

Abstract

语义标记Semantic labelling与几何形状geometry 和辐射重建radiance reconstruction高度相关,因为具有相似形状和外观的场景实体更有可能来自相似的类别。最近的隐式神经重建技术很有吸引力,因为它们不需要预先的训练数据,但同样的完全自监督的方法是不可能进行语义的,因为标签是人类定义的属性。

我们扩展了神经辐射场(NeRF),以联合编码具有外观和几何形状的语义jointly encode semantics with appearance and geometry,以便可以使用少量特定于场景的就地注释 in-place annotations 来实现完整和准确的二维语义标签 2D semantic labels。NeRF语义固有的多视图一致性multi-view consistency平滑性smoothness 有利于使稀疏标签得以有效传播。当标签在房间尺度的场景中是稀疏的或非常嘈杂的时sparse or very noisy in room-scale scenes,我们展示了这种方法的好处。我们在视觉语义映射系统visual semantic mapping systems中展示了它的优势,如高效的场景标记工具efficient scene labelling tool、新语义视图合成novel semantic view synthesis、标签去噪label denoising、超分辨率super-resolution、标签插值label interpolation和多视图语义标签融合multi-view semantic label fusion

 

图1:神经辐射场(NeRF)联合编码外观和几何形状,包含了分割和聚类的强先验。在此基础上,我们创建了一个特定场景的3D语义表示,semantic -nerf,并表明它可以通过现场监督有效地学习,以执行各种潜在的应用程序。

1. Introduction

机器学习方法在几何和语义预测任务中都被证明是有价值的,但当训练数据的分布与测试时观察到的场景不匹配时,这些方法的性能就会受到影响。虽然这个问题可以通过收集昂贵的注释数据或半监督学习来缓解,但在具有各种已知和未知类的开放集场景中并不总是可行的。

估计场景的几何形状和预测其语义标签的任务是密切相关的,因为具有相似形状的场景更可能属于同一语义类别,而不是差异很大的语义类别。其中同时预测形状和语义的网络比单独处理任务时表现得更好。

然而,与场景几何 scene geometry不同的是,语义类semantic classes是一个人类定义的概念,它不可能以一种纯粹的自我监督的方式来语义地标记一个新的场景。所能达到的最好方法是将场景的自相似结构聚为类别cluster self-similar structures of a scene into categories;但是总是需要一些标签来将这些集群与人类定义的语义类联系起来。

在本文中,我们展示了如何设计一个特定场景的网络用于联合几何和语义预测,并在只有弱场景任务监督(没有几何监督)的单一场景的图像上进行训练。因为我们的单一网络必须同时生成几何图形和语义,这些任务之间的相关性意味着语义预测可以受益于几何自监督学习到的平滑性、相干性和自相似性 smoothness, coherence and self-similarity。此外,多视图一致性是训练过程中固有的,使网络能够产生准确的场景语义标签,包括与输入集中的任何视图有本质上不同的视图。

我们的系统以一组具有相关的已知相机姿态的RGB图像作为输入。我们还为图像提供一些部分或有噪声的语义标签,例如为一小部分图像提供地面真实标签,或为更多数量的图像提供有噪声或粗糙的标签映射。我们训练我们的网络共同为整个场景的几何和语义的隐式三维表示。

我们对来自复制数据集Replica dataset[28]的场景进行了定量和定性的评估,并对来自ScanNet数据集[3]的真实世界的场景进行了定性的评估。从部分或噪声输入标签为整个场景生成密集的语义标签对于实际应用很重要,比如当机器人遇到一个新场景时,只有少量的现场标签是可行的,或者只有一个不完美的单视图网络可用。

3. Method

3.1. Preliminaries

NeRF简介

3.2. Semantic-NeRF

 

图2:Semantic-NeRF网络架构。在进行位置编码(PE)后,将三维位置方向(x、y、z)观察方向(θ、φ)输入网络。体积密度σ语义逻辑semantic logits s三维位置的函数,而颜色c另外取决于观察方向。

我们现在展示如何扩展NeRF来联合编码外观、几何和语义。如图2所示,我们在向MLP中注入查看方向之前,通过添加一个分割渲染器来增强原始的NeRF。

我们将语义分割形式化为一个固有的视图不变函数,它通过 pre-softmax semantic logits s(x),只将一个世界坐标x映射到C语义标签上的分布:

 

其中,FΘ表示学习到的mlp。

图像平面上给定像素的近似期望语义对数ˆS(r)可以写为:

 

 

α(x)=1−exp(−x),δk=tk+1−tk是相邻样本点之间的距离。语义对数可以Semantic logits通过一个软极大的归一化层softmax normalisation layer 转换为多类概率multi-class probabilities

3.3. Network Training

 

其中,R为训练批内的采样射线,分别为射线r的地面真实值、粗体积预测和细体积预测的RGB颜色。同样,分别是在地面真实图的第l类上的多类语义概率、rayr的粗体积预测和细体积预测。选择Ls作为多类交叉熵损失,以鼓励呈现的语义标签与提供的标签一致,无论这些是地面真实、噪声还是部分观察。因此,总训练损失L为:

 其中λ为语义损失的权重,设置为0.04以平衡两个损失的大小[8]。在实践中,我们发现实际性能对λ值并不敏感,将λ设置为1也会得到类似的性能。这些光度和语义损失自然地鼓励网络从底层的联合表示中生成多视图一致的二维渲染。

3.4. Implementation

通过对每个场景的网络从头开始训练,获得特定场景的语义表示。我们使用类似于[16(NeRF)]的设置和超参数。具体来说,我们使用分层体积采样来联合优化粗网络和细网络,其中前者提供了重要性抽样偏差,以便后者可以将更多的样本分布到可能可见的位置。长度为10和4[32,30]的位置编码分别应用于三维位置和观看方向。此外,由于我们没有深度信息,我们在实验中将射线采样的边界分别设置为0.1m和10m,而没有对室内场景进行仔细调整

4. Experiments and Applications

通过对彩色图像和具有相关姿态的语义标签的训练,我们得到了一个特定于场景的隐式三维语义表示。我们通过将三维表示投影回二维图像空间来定量地评估它的有效性,在那里我们可以直接访问显式的地面真实数据。我们的目的是展示有效学习这种联合三维表示对语义标记和理解的好处和有前途的应用。我们强烈敦促读者在项目页面上检查更多的定性结果:https://shuaifengzhi.com/Semantic-NeRF/。

 

图3:在训练过程中,给出100%和10%的地面真实标签的测试姿态时的合成语义标签。从左到右,我们显示了地面真实的颜色和语义图像以供参考,并分别在100%和10%的监督下呈现了语义标签及其信息熵。熵图的明亮部分与相应训练设置中的物体边界或模糊/未知区域匹配良好。

 

图5:语义去噪的定性结果。即使当90%的训练标签都是随机损坏的,我们也可以恢复一个精确的去噪语义映射。从左到右是有噪声的训练标签,训练后从相同姿势呈现的去噪标签,以及信息熵。我们在去噪任务中看到的整体高熵表明,有噪声的训练标签之间有很大的不一致性。

5. Conclusion and Future Work

我们已经证明,在特定的几何和外观隐式MLP模型中添加语义输出意味着当只有部分、噪声或低分辨率语义监督时,可以为场景生成完整和高分辨率的语义标签这种方法在机器人技术或其他应用中有实际应用,在只有有限标签的新场景中是可能的。

未来研究的一个有趣的方向是交互式标签,持续训练网络要求新的标签,这将最能解决整个场景的语义模糊。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值