神经辐射场重建自快照压缩图像：单次曝光下的三维场景重建，无需生成模型（CVPR 2024）

编程日记✧

于 2024-05-04 10:09:02 发布

阅读量1.1k

点赞数 20

文章标签：人工智能机器学习算法深度学习计算机视觉

本文链接：https://blog.csdn.net/lironglu_/article/details/138435178

版权

<SCINeRF: Neural Radiance Fields from a Snapshot Compressive Image>

机构：浙江大学和西湖大学

主要亮点：

创新结合：SCINeRF方法创新性地将快照压缩成像（SCI）技术与神经辐射场（NeRF）相结合，用于从单个时间压缩图像中恢复底层的3D场景表示。

解决问题：传统的高速成像系统面临着高硬件成本和存储需求的挑战。SCINeRF通过SCI低成本的2D成像传感器录制高维数据（如高光谱或时间信息）到单个图像中，有效解决了这一问题。

高性能：SCINeRF在图像重建和新视角图像合成方面超越了现有的最先进方法，展现了强大的性能。

多视角一致性：利用SCI技术和NeRF的渲染能力，SCINeRF能够恢复高帧率的多视角一致性图像。

实际应用：SCINeRF支持在单次曝光时间内（可能短于20ms甚至10ms）从快速移动的相机中捕捉场景，然后恢复底层的3D场景表示，为快速成像提供了一种有效的解决方案。

软硬件编解码：SCINeRF的硬件编码器通过一系列特别设计的2D掩模来调制入射光子，而软件解码器则利用压缩测量和相应的二进制掩模来恢复高帧率图像，这一过程还可以通过软件在预捕获的图像上实现，进一步减少存储/传输需求并提供额外的隐私保护。

测试时间优化：与先前基于深度学习的端到端方法相比，SCINeRF在测试时间进行优化，避免了泛化性能下降的问题。

论文链接：https://arxiv.org/abs/2403.20018

代码：GitHub - WU-CVGL/SCINeRF: [CVPR 2024 Highlight] SCINeRF: Neural Radiance Fields from a Snapshot Compressive Image

总结：SCINeRF通过结合SCI技术和NeRF，提出了一种从单个压缩图像中恢复3D场景的方法，不仅提高了图像重建和新视角合成的性能，而且能够实现高帧率的多视角一致性图像，为高速成像和3D场景重建提供了新的可能性。

一、引言

传统的三维重建技术通常依赖于从多个角度捕获的众多图片来重建出三维场景。随着技术的进步，尝试仅通过单张图片来构建三维场景的研究逐渐增多。然而，这些尝试大多数依赖于生成式模型（例如 Stable Diffusion）来推断场景的三维信息，这意味着它们需要依靠预训练的生成式模型来完成任务。

图1：作为输入的单张压缩图像和从重建的 3D 场景渲染出的新视角图像

因此，挑战依旧存在于如何不依赖任何生成式模型，仅通过单张图片来实现整个三维场景的重建。

本研究提出了一种结合单次曝光压缩成像（Snapshot Compressive Imaging, SCI）系统与神经辐射场（NeRF）的新方法，用于捕获和重建三维场景。该方法首先利用SCI系统将多视角的图像信息压缩记录在单张图片中，然后通过基于NeRF的算法在重建阶段重现场景。

SCI系统利用二维传感器，在单个测量中将高维数据（如视频、多帧图像、高光谱图像等）压缩成一张二维图片。测量完成后，需通过重建算法解逆问题，将二维测量数据还原为原始的高维数据。尽管深度学习的进展极大地推动了SCI重建算法的发展，但现有算法未能考虑到拍摄场景的三维结构，仅能还原二维图像，并且面临准确度低、稳定性差、泛化能力不足的问题。

相较于依赖预训练模型的单图像三维重建方法，本研究不需依赖任何预训练模型即可从单张图片重建三维场景。与传统SCI重建方法相比，本研究利用NeRF在三维场景估计和图像渲染方面的强大能力，实现了高质量的三维场景重建，并能渲染高帧率的场景图像。

利用测试时优化（Test-time Optimization, TTO）的NeRF方法，本研究展现了出色的泛化能力。通过在各种合成和真实数据集上进行的定性与定量评估，证明了本方法的卓越性能。

本文的主要贡献包括：

提出了一种结合SCI成像和NeRF的创新三维场景重建算法，能够从单张压缩图像端到端地重建三维场景。
通过广泛的实验评估，展示了本研究方法在三维场景重建及SCI图像/视频重建任务上的卓越性能。无论是在合成数据集还是真实数据集上，本方法都明显优于现有技术。
本方法在场景加密与解密、图像压缩、高速摄影等多个领域展现了巨大的应用潜力。

二、方法

2.1 硬件设计概述

本研究所采用的单曝光压缩成像系统得益于创新的光学硬件及成像算法设计，能够在单次测量过程中采集并压缩高维数据（如视频、高光谱图像等），通过二维传感器（例如CCD/CMOS相机）高效捕捉视觉信息。我们的方法能够在一次测量中捕获动态场景，把来自不同视角的图像信息集中压缩至一张单一图像内。

图2：单曝光压缩成像 (SCI) 系统使用 2D 传感器在测量中捕获高维数据

2.2 模型架构

本研究提出了一种端到端的方法，利用基于神经辐射场（NeRF）的技术从单曝光压缩（SCI）图像中重建三维场景。鉴于传统的NeRF重建技术依赖于多视角图像及其相机姿态信息，我们对NeRF的训练过程进行了显著的改进。

首先，在训练NeRF模型的同时，将相机姿态纳入优化参数中，和NeRF的神经网络参数一起进行优化。考虑到在SCI系统捕获场景的瞬间，场景相对于相机的移动较小，本文假设相机在拍摄过程中进行匀速直线运动，这一假设显著降低了训练的复杂性。对于更加复杂的运动模式，可以采用更高级的运动模型来优化相机轨迹。

接着，为了模拟SCI系统的成像过程，我们将从不同视角渲染的图像进行采样和压缩，生成一张合成的SCI图像。然后，使用这张合成图像与实际捕获的SCI图像之间的误差进行反向传播训练，实现了利用单张SCI图像进行端到端的训练过程。通过这种训练机制，能够直接从SCI图像中恢复出三维场景的细节（详细的推导过程详见原论文）。

最终，一旦场景被成功重建，就可以利用NeRF的高级图像渲染能力来获取恢复后的图像。

图3：SCINeRF概述。方法以单个快照压缩图像和相应的掩模作为输入，在单个曝光时间内恢复底层的3D场景表示和相机运动轨迹。

本研究中的模型训练方法。采用了一种创新的训练机制，通过同时优化相机姿态和NeRF神经网络的参数，并仿真单曝光压缩（SCI）成像过程，生成一张模拟的SCI图像。这张模拟图像与实际获取的SCI图像之间的误差用于反向传播，实现了利用单张SCI图像进行端到端的三维场景重建。这种方法有效整合了相机位姿的优化和NeRF模型的训练，提高了重建的准确性和效率。

三、结论

在本文中，提出了一种创新的3D场景重建方法，它结合了单曝光成像技术和神经辐射场（NeRF）模型，允许仅使用一张图像即可实现端到端的3D场景重建，而无需依赖于任何预先训练好的生成模型。对NeRF的训练机制进行了显著改进，使其能够有效提取并利用SCI图像内蕴含的3D信息，以准确地重建场景。同时，NeRF的高效图像渲染能力使得从重建的场景中生成高质量、高分辨率的图像成为可能。

经过实验验证，方法不仅能够重建出高质量的3D场景，而且在传统的单曝光压缩成像图像和视频重建任务中，相较于现有技术表现出了显著的优势。这一成果为高速3D成像、3D场景的加密与解密、以及图像和视频信息压缩等领域的未来应用展现了新的前景。

编程日记✧

关注

20
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
神经辐射场重建自快照压缩图像：单次曝光下的三维场景重建，无需生成模型（CVPR 2024）

本研究所采用的单曝光压缩成像系统得益于创新的光学硬件及成像算法设计，能够在单次测量过程中采集并压缩高维数据（如视频、高光谱图像等），通过二维传感器（例如CCD/CMOS相机）高效捕捉视觉信息。我们的方法能够在一次测量中捕获动态场景，把来自不同视角的图像信息集中压缩至一张单一图像内。图2：单曝光压缩成像 (SCI) 系统使用 2D 传感器在测量中捕获高维数据。
复制链接

扫一扫