论文阅读：Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction-CSDN博客

本文链接：https://blog.csdn.net/blueag1e/article/details/129143770

该文章提出了一种针对神经辐射场的快速直接体素优化方法，通过后激活密度体素网格和应用多种先验，实现了训练过程的超快收敛。初始阶段采用粗几何搜索定位场景区域，然后逐步细化细节和视图依赖效果，有效解决了传统NeRF训练时间长的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

中文标题：直接体素优化：神经辐射场的超快收敛

提出问题

NeRF及其变体对于一个场景需要漫长的训练时间，从数小时到数天不等。

创新点

文章采用由密度体素网格和特征体素网格组成的显网络表示复杂的视图相关的外观。
我们引入了体素密度的激活后插值，它能够在较低的网格分辨率下产生清晰的表面。
直接体素密度优化容易产生次优几何解，因此我们通过施加多个先验来优化优化过程。
超快收敛的关键是直接优化在密集体素网格中建模的体积密度。

具体方法

在这里插入图片描述

后激活-密度体素网格

体素网格表示
一个体素-网格表示模型会表示其感兴趣的内容（密度、颜色或者特征）。
$x$ 为查询点，V为体素空间，C为模态通道数， $N_x \times N_y \times N_z$ 是所有网格数。通常使用三线性插值对查询点进行插值查询。
神经辐射场密度网格
密度网格的C为1。
使用Mip-NeRF中的softplus 代替 ReLU， $\ddot\sigma$ 代表在使用密度激活函数之前的体密度。
使用softplus而不是ReLU对于直接优化体素密度至关重要，因为当一个体素以ReLU作为密度激活而被错误地设置为一个负值时，这是不可修复的。相反，softplus允许我们探索非常接近于0的密度。
Sharp decision boundary via post-activation 通过后-激活函数锐化边界

快速直接体素网格优化

粗几何搜索：通常，一个场景是由自由空间（即未被占用的空间）所主导的。基于这一事实，我们的目标是在重建需要更多计算资源的精细细节和视图依赖效应之前，有效地找到粗糙的三维感兴趣区域。因此，我们可以在后期的精细阶段大大减少每条射线上查询点的数量。
粗几何表示：每一个查询位置x，都可以通过插值法找到相应的体密度和颜色c。
粗几何分配：首先确定一个边界（图中（c）中的红框），完全包裹训练目标。并且将其于体素网络对齐。
粗点采样：
$\delta^{(c)}$ 表示可以根据体素尺寸自适应选择的步长。
先验1：低密度初始化：训练开始时，远离相机的点由于透射率累计，重要性被降低。因此粗密度网格表示会被困在一个相机附近平面上的次优结构上。
因此要初始化所有的网格值为0，公式5中的b（bias）为：
先验2：基于视图计数的学习率：在现实世界的捕获中，可能会有一些对太少的训练视图可见的体素，而我们更喜欢一个在许多视图中具有一致性的表面，而不是一个只能解释少数视图的表面。在实践中，我们为体素中不同的网格点设置了不同的学习率对于由j索引的每个网格点，我们计算可见点在不同视图中出现的数量，以此调整学习率。可见次数少的网格点给与小学习率。
细节重建: 在优化了一个粗几何网格 $V^{(density)(c)}$ 后，聚焦于更小的空间重建表面细节和视图。且粗几何网格 $V^{(density)(c)}$ 在此阶段被冻结。

参考文献：

[1] Sun C, Sun M, Chen H T. Direct voxel grid optimization: Super-fast convergence for radiance fields reconstruction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 5459-5469.