高亮反光终结者？谷歌NeRF-Casting：光线追踪就能搞定！

自动驾驶之心

于 2024-05-28 07:30:59 发布

阅读量116

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247608275&idx=5&sn=ae4e4b66d747dca5c15162ea58818ac3&chksm=cfabd503c1b30c142c16e20b5fb606212670e6e237cdf2c98906a28d77ba0cefe557ad3dc5cf&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『三维重建』技术交流群

论文作者 | 比克大魔王

编辑 | 自动驾驶之心

NeRF不再“畏惧”近处高光反射

早期的NeRF变体使用多层感知器（MLPs）从三维坐标映射到体积密度和视点相关的颜色，但是表示详细的三维几何和颜色所需的大型MLPs训练和评估速度极慢。最近的工作专注于通过用类似体素网格的数据结构或网格和小型MLPs的组合替代大型MLPs，使NeRF更加高效。虽然可以扩展到表示详细的大规模场景，但其优势仅限于三维几何和主要的漫反射颜色。

扩展NeRF建模现实的视点相关外观的能力仍然是一个挑战。当前最先进的用于闪亮物体视图合成的模型在两个方面存在限制：

只能合成远处环境光照的准确反射，而在渲染近处场景内容的逼真反射方面表现不佳。
依赖大型MLPs来表示任何点的视点相关出射辐射，难以扩展到具有详细反射的更大现实场景。

NeRF-Casting是一种通过将光线追踪引入NeRF渲染模型来解决这些问题的方法。其主要涉及3个领域：

反射建模：传统的反射建模方法使用物理定律和基于图像的技术来表示表面反射特性。近年来，神经网络被用于学习反射特性，特别是在复杂材料和光照条件下。
光线追踪：光线追踪是一种广泛使用的计算机图形技术，通过模拟光线与物体表面的交互来生成逼真的图像。光线追踪技术已被用于生成高质量的反射和折射效果，但计算复杂度高。
三维成像：三维成像技术涉及从多视图数据生成三维表示。NeRF和其他神经网络方法通过学习场景的三维几何和颜色分布，生成新视图，从而在三维成像领域取得了重大进展。

NeRF-Casting不是在每个相机射线的点上查询昂贵的MLP以获得视点相关的外观，而是从这些点投射反射射线到NeRF几何中，采样正确抗锯齿的反射场景内容特征，并使用一个小型MLP将这些特征解码为反射颜色。将光线投射到恢复的NeRF中自然地合成了近处和远处内容的一致反射。此外，通过光线追踪计算外观减少了在场景中的每个点用大型MLP表示高度详细的视点相关函数的负担。

感兴趣的朋友可以看视频效果：https://nerf-casting.github.io

（大拇指往上滑，点击最上方的卡片关注我，整个操作只会花你 1.328 秒，然后带走未来、所有、免费的干货，万一有内容对您有帮助呢～）

模型细节

NeRF-Casting的三个主要目标：

希望在不依赖计算量大的MLP评估的情况下建模出准确、详细的反射。
希望仅投射少量的反射光线。
希望最小化在这些反射光线的每个点上查询我们表示所需的计算量。

三维体积密度和特征表示基于Zip-NeRF[2]：使用多尺度哈希网格来存储三维特征，一个小型MLP（1层，宽度64）将这些特征解码为密度，一个较大的MLP（3层，宽度256）将这些特征解码为颜色。这意味着沿光线查询样本的密度和特征相对便宜。考虑到这些约束，按照以下流程来渲染镜面外观：

沿每条相机光线查询体积密度，以计算光线的预期终止点和表面法线。
在反射方向上通过预期终止点投射一个反射锥。
使用一个小型MLP将累积的反射特征与其他采样量（例如漫反射颜色特征和每个样本的混合权重）结合起来，为沿光线的每个样本生成一个颜色值。
将这些样本和密度进行阿尔法合成，得到最终颜色。

反射锥追踪

对于给定的光线，起点为，方向为，沿光线采样个点，并评估NeRF以获取一组三维量（例如表面法线等）。然后对这些量进行阿尔法合成，以获得预期的表面终止点和光线的相关表面法线，通过将通常用于颜色的体积渲染应用于采样点和法线：

然后通过反射初始光线关于表面法线来构建一个新的反射光线方向

追踪单一反射光线不能用于渲染非完美镜面的材料，而且它忽略了Zip-NeRF为每个像素追踪锥而不是光线的事实。因此，我们模拟了一个反射光线的锥状分布。这种分布的形状受两个因素的影响：从相机投射的原始像素锥的半径和相机光线预期终止点表面的粗糙度，如图3所示。我们首先将反射光线的锥状分布和由于表面粗糙度引起的反射方向分布都建模为以镜面反射方向为中心的von Mises-Fisher (vMF，即归一化球面高斯)分布。像素锥分布的vMF宽度（其浓度参数 κ 的倒数）为像素半径，表面粗糙度的vMF宽度为在空间中任何点参数化的量 ρ。相机光线预期终止点处的反射光线锥模拟为vMF分布 κ，其宽度 κ 为像素光线锥的半径和主光线沿线的合成粗糙度 ρ 的总和：

为了确保反射射线锥体在表面上的横截面与入射射线相匹配，对反射射线锥体的起点应用了一个与粗糙度相关的偏移，使其与相交，同时保持入射射线的半径不变。

圆锥形反射特征

现在已经定义了一个vMF分布，涵盖了反射射线，目标是估计在vMF分布上的预期体积渲染特征，然后将其解码为反射颜色。这个预期特征可以写成：

使用蒙特卡洛方法对随机采样的射线进行积分估计是非常昂贵的，因为每个样本都需要沿着射线进行体积渲染。受Zip-NeRF的启发，使用一小组代表性样本结合特征减权来近似这个积分。然而与Zip-NeRF不同的是，我们将这两个操作都在二维方向域中执行，而不是在三维欧几里得空间中。

方向采样

不再对大量随机反射射线进行采样，而是使用无迹方向采样选择一组代表性射线。评估条射线（在实验中设置 𝐾 = 5），以维持平均和浓度，通过设置和放置在以为中心的圆周上，其半径取决于。在优化过程中，随机将样本刚性地围绕圆圈旋转，而在评估过程中则固定它们。对于每个被采样的条射线，在沿射线的个样本点处评估体积密度和外观特征，并将它们体积渲染成特征。为了生成这些个样本，使用与在摄像机射线上采样射线相同的程序。然后将这个特征取平均以得到反射锥体的单个特征向量：

反射特征降权

上文描述的方向采样有助于选择一个小的代表性射线集合进行平均。然而，对于具有高粗糙度的表面，采样的射线可能相对于底层的3D网格单元格之间距离较远。这意味着方程9中的特征可能存在伪影，并且反射射线方向的微小变化可能导致外观上的大幅变化。

为了防止这种情况发生，将Zip-NeRF中的“特征降权”技术调整到方向设置中。通过将与vMF锥相比较小的体素对应的特征乘以一个小的乘数来实现这一点，减小它们对渲染颜色的影响。按照Zip-NeRF的做法，定义点 x 处的降权特征为：

由于专注于大场景，需要使用收缩函数（方程2），因此特别重要考虑在收缩的非线性区域的行为。Zip-NeRF将缩放为收缩函数的3D Jacobian特征值的几何平均值（方程3）。这导致了一个不幸的结果，即因为强烈地将远离原点的点收缩到原点，导致接近0（即不应用降权）对于远离原点的点。因此，使用Zip-NeRF的降权函数会导致远处内容的反射中出现显著的伪影。相反，我们使用仅限于（2D）方向域的Jacobian行列式，并定义为：

颜色解码器

颜色解码器的作用是为沿射线的每个采样点分配一种颜色，使用两种颜色分量的凸组合：

第一个颜色分量类似于典型的 NeRF 视角相关外观模型：

第二个分量，旨在模拟光泽外观，计算如下：

其中和是小型MLP，而是引入的反射特征。与类似，瓶颈向量也是通过应用于几何特征的小型MLP输出的。将应用于3D空间而不是图像空间，因此反射特征被馈送到沿着摄像机射线的每个采样点的颜色解码器中。我们发现，这对于收敛是有用的，因为在优化的早期阶段，当几何体仍然模糊时，沿着射线的每个点都可以利用反射特征。

几何表示和正则化

几何表示基于 Zip-NeRF[2]。对法线应用方向损失，并利用应用于 NGP 特征的小型 MLP 输出的预测法线。与 Ref-NeRF 不同，使用了一个非对称的预测法线损失，它允许对从几何法线（即密度的归一化负梯度）和沿着射线到预测法线的梯度分别进行调整，并反之亦然：

效果欣赏

总结一下

NeRF-Casting是一种使用神经辐射场（NeRF）渲染包含高光物体的场景的方法。

方法：将反射锥从场景中的表面反射并通过NeRF进行追踪，并结合了一套新颖的技术来抗锯齿这些反射，从而能够合成远处和近场内容的准确详细反射，这些反射在表面上始终如一且平滑地移动。

讨论：在定量上优于现有的视图合成技术，特别是对于显示详细镜面反射的光滑表面。定性的视觉改进在图像指标方面的定量改进远远超过了。尤其值得注意的是，该方法合成的反射平滑而一致的运动，比基线方法呈现的视角相关外观更加逼真。这表明标准的图像误差度量（PSNR、SSIM等）不足以评估视角相关外观的质量。

参考

[1] NeRF-Casting: Improved View-Dependent Appearance with Consistent Reflections

[2] Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields. ICCV (2023).

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

自动驾驶之心

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
高亮反光终结者？谷歌NeRF-Casting：光线追踪就能搞定！

点击下方卡片，关注“自动驾驶之心”公众号戳我->领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『三维重建』技术交流群论文作者|比克大魔王编辑 | 自动驾驶之心NeRF不再“畏惧”近处高光反射早期的NeRF变体使用多层感知器（MLPs）从三维坐标映射到体积密度和视点相关的颜色，但是表示详细的三维几何和颜色所需的大型MLPs训练和评估速度极慢。最近的工作专注于通过用...
复制链接

扫一扫