哈工大&清华SANeRF：少样本方法仅增加一行代码，快700倍？-CSDN博客

点击下方卡片，关注“自动驾驶之心”公众号

论文作者 | Yuru Xiao

编辑 | 3D视觉之心

少样本NeRF是突破口吗？

传统的NeRF方法需要大量来自不同视角的图像才能实现高质量的重建，这限制了其在数据获取成本高或困难的情况下的适用性。少样本NeRF旨在通过开发能够使用最少数量输入图像就能生成高保真度三维场景重建的方法来解决这一限制。在输入图像数量显著少于传统NeRF方法的情况下依然能够有效工作。

现有方法主要集中于缓解过拟合和改进几何重建，往往忽视了重建效率。其中，FreeNeRF[2]采用了一种由粗到细的训练方法来解决少样本神经渲染问题，被视为一种隐式几何正则化的变体。尽管FreeNeRF在少样本场景中显著提高了渲染性能，并且代码调整最小，但其训练过程耗时长且劳动强度大，通常需要几个小时。

为了弥合效率与准确性之间的差距，本文介绍一种新颖的少样本神经渲染技术SANeRF，将空间退火平滑策略整合到流行的TriMipRF框架[3]中。该方法可即插即用，可以无缝集成到预过滤驱动的架构中，简单到只需添加一行代码。在合成数据集Blender和Shiny Blender上的大量实验，不仅在PSNR方面显著超过原始TriMipRF约3 dB，而且在Blender数据集上超过了最先进的少样本NeRF技术FreeNeRF[2]0.3 dB的PSNR，同时训练速度快700倍。

预备知识和动机

频率正则化

FreeNeRF[2]通过在训练过程中逐步增加位置编码的频率，解决了少样本挑战，这种技术称为频率正则化。该方法通过使用调制掩模来简单地实现，具体如下：

这里，和分别表示当前和总的迭代步数，而γ和γ分别表示初始和掩模后的位置编码。表示频率掩模，它在整个训练过程中线性扩展。

TriMipRF

TriMipRF[3]引入了一种用于三平面表示的预过滤策略。由于MipNeRF引入的集成位置编码（IPE）与这种混合模型不兼容，TriMipRF通过在三个平面上查询特征进行区域采样，这些平面的级别与采样球在锥体内的投影半径相关。相关级别表示为和，其中表示与球体半径相对应的查询级别，如下所示：

其中，代表与基础级别相关的基础半径，而τ表示采样球的半径，如下所示：

球体的中心位置由表示，其中表示相机中心，是光线的方向，是到的距离。f表示焦距。圆盘的半径ṙ计算为√(∆x · ∆y / π)$，其中∆x和∆y分别表示世界坐标中像素的宽度和高度。

动机

本方法的目标是创建一种适用于隐式和混合表示的通用频率正则化形式。尽管TriMipRF消除了坐标位置编码，但其预过滤设计（由MipNeRF演变而来）仍需要空间区域采样。所以本文探索一种在空间域内的双重频率正则化形式。该方法特别适用于采用区域采样策略的混合表示。引入了一种专为TriMipRF架构量身定制的空间退火策略。通过精确调整样本区域的大小，在少样本场景中实现了显著的性能提升，仅需对代码进行少量修改。

具体方法

频率正则化与预过滤策略

频率正则化（见公式1）与基于集成位置编码的预过滤策略之间的关系，考虑在三维空间中的多变量高斯分布，其表示为：

其中，μ表示位置，表示协方差矩阵。为了便于比较，将高斯模型化为各向同性的，其特点是具有对角线，其元素均为σ²，反映了样本空间的大小。计算高斯的集成位置编码γ，如下所示：

γμ表示μ的位置编码，而Ml表示应用于该编码的低通掩模。掩模的结构与高斯分布对齐，其协方差为σ²σ²。σ²调节频率带宽。

比较公式7和公式1，我们发现集成位置编码与频率正则化之间存在显著相似性：两者都对原始位置编码应用了低通掩模，只是掩模的形式不同。受FreeNeRF启发，采用σ²的指数增长模型，定义为σ²，其中是与迭代次数对应的步长增量。同时，空间高斯的协方差σ²指数减少，表示为：

因此，我们得出，FreeNeRF【5】引入的频率正则化可以通过在预过滤策略中反向调整空间样本空间来执行，如公式8所述。这一见解指导了我们空间退火平滑策略的发展。

空间退火策略

如图2所示一种由粗到细的训练策略。通过增加采样球的半径在渲染过程中引入模糊，如图2左下角所示。采样球的基础半径由公式4定义。半径的增加对应于三个平面中的较高级别，特征分辨率较低。在训练开始时，这种方法有助于优化过程集中于全局几何结构的重建，对于解决少样本场景中的过拟合问题至关重要。样本区域的半径系统地减少，遵循公式8所述的指数衰减。这种渐进的减少旨在将更多的训练重点放在预先建立的几何基础上增强局部几何和纹理细节。

退火过程的具体步骤如下：

其中是递减步数的总数，是当前的迭代次数，是退火的停止点。决定了球体的初始大小，ϑ控制递减的速度。

渲染

随着放大的球体半径的指数减少，三个平面的查询级别也随之降低。这个关系可以数学表示为：

在级别和查询特征平面上的八个特征向量。在初始训练阶段，增加的级别排除了通常与过早收敛和过拟合相关的高分辨率特征。这种策略强调了低频几何结构的学习。随着半径的指数减少，训练逐步转向，允许更多迭代在预先建立的低频几何上精炼高频细节。查询特征的插值基于投影圆的中心位置和球体级别。最终输入到微小MLP中的特征向量f是从每个平面查询的特征向量的连接。

实验效果

总结一下

SANeRF是一种新颖的空间退火平滑策略，专为配备预过滤策略的混合表示架构设计。该方法通过精心设计的退火过程自适应调整空间采样大小，提高了几何重建和细节精炼效果。该方法只需要对基础架构代码进行极少的修改，就能在少样本场景中实现最先进的性能，同时保持效率。空间退火策略在增强各种采用预过滤设计的架构的训练稳定性方面具有潜力。

参考

[1] Spatial Annealing Smoothing for Efficient Few-shot Neural Rendering

[2] Freenerf: Improving few-shot neural rendering with free frequency regularization

[3] Trimiprf: Tri-mip representation for efficient anti-aliasing neural radiance fields

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频