CVPR 2024最佳论文分享┆PixelSplat：使用基于图像对的三维高斯溅射进行可缩放可拓展的三维重建

audyxiao001

已于 2024-07-13 20:23:22 修改

阅读量2.1k

点赞数 16

文章标签：人工智能计算机视觉深度学习

于 2024-07-13 19:48:29 首次发布

本文链接：https://blog.csdn.net/audyxiao001/article/details/140405089

版权

CVPR（IEEE Conference on Computer Vision and Pattern Recognition）是计算机视觉领域最有影响力的会议之一，主要方向包括图像和视频处理、目标检测与识别、三维视觉等。近期，CVPR 2024 公布了最佳论文。共有10篇论文获奖，其中2篇最佳论文，2篇最佳学生论文，2篇最佳论文题目和4篇最佳学生论文提名。本公众号推出CVPR 2024最佳论文专栏，分享这10篇最佳论文。

本推文详细介绍了CVPR 2024最佳论文《pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction》。

论文下载：https://arxiv.org/abs/2312.12337。

代码下载：https://github.com/dcharatan/pixelsplat。

演示实例：https://davidcharatan.com/pixelsplat。

该论文的第一作者为麻省理工学院博士David Charatan。论文针对现有3D重建方法中的内存和时间开销大的问题，提出了一个新的模型pixelSplat，通过3D高斯基元进行参数化，从图像对中灵活、高效地重建3D辐射场，显著提升了宽基线新视图合成的性能。本推文由邱雪撰写，审校为黄星宇和许东舟。

1.研究的背景与意义

本文提出了pixelSplat，这是一种通过3D高斯基元进行参数化,进而从图像对中学习重建3D辐射场的前馈模型。现有的基于可微渲染的方法虽然在训练和渲染3D场景方面取得了重要进展，但其内存和时间开销较大。为解决这一问题，本文提出了一种使用基于图像对的三维高斯溅射进行可缩放可拓展的三维重建的方法。该方法在RealEstate10k和ACID数据集上的宽基线新视图合成任务中表现出色，不仅显著超过了当前的光场变换器，还加速了渲染速度，并实现了可解释且可编辑的3D辐射场重建。这为可扩展的、通用的3D重建提供了新的解决方案，有望在计算机视觉和图形学领域产生广泛的应用。

2.方法论

(1)模型的工作流程

图1 pixelSplat模型的工作流程

图1展示了pixelSplat模型的工作流程。从左侧的两张输入图像开始，模型通过推理生成中间的3D高斯溅射分布，这些溅射分布参数化了3D辐射场。随后，通过高斯溅射分布进行渲染，生成右侧的新视图。这个过程说明了pixelSplat如何利用3D高斯基元，从少量图像中高效地重建出可实时渲染、可编辑且训练成本低的3D表示。

(2)解决的问题

本文提出的pixelSplat方法包括两个模块:双视图编码器、像素对齐的高斯预测模块。分别解决的问题：(1)尺度奇异的问题；(2)描述模型如何预测3D高斯溅射参数的问题。

图2 使用图像对进行3D重建时存在的尺度奇异

图2展示的问题可以采用双视图编码器解决。这也是在结构化运动中，尺度奇异问题的解决方法。结构化运动无法在实际尺度（度量尺度）下重建相机姿态，而是使用一个任意的比例因子来缩放每个场景。为了生成正确的视图，模型的3D重建需要与这个任意比例因子保持一致。本论文提出极线编码器来解决这个问题。左侧和右侧的两个相机视图通过极线相连。左侧相机视图中的像素对应的特征与沿右侧相机视图中极线采样的特征进行比较。极线采样特征通过它们沿射线的位置编码深度进行增强，这使得编码器能够记录正确的深度。然后，这些记录的深度可用于深度预测。

图3 像素对齐的高斯分布的概率预测

图3展示了像素对齐的高斯预测原理。这也是像素对齐高斯分布的概率预测过程。首先，通过编码器生成图像的特征图，并提取每个像素特征。神经网络f为每个像素特征预测高斯基元参数Σ和S，而不是直接预测高斯位置μ和不透明度α。相反，f预测每个像素的深度离散概率分布pϕ(z)，并通过采样确定高斯基元的位置和透明度。最终，高斯基元集合可以使用溅射算法进行渲染，从而生成高效、可编辑的3D表示。这一过程确保了模型在训练中能够克服局部极小值问题。窗体底端

3.数据集

(1)RealEstate10k 数据集

一个用于新视角合成和三维重建任务的广泛使用的数据集。该数据集包含了大量的室内场景，从不同视角拍摄的图像对，并且提供了摄像机的姿态信息，适用于训练和评估图像合成和三维重建模型。

(2)ACID 数据集

一个包含了各种复杂场景的图像数据集。该数据集包括了许多具有挑战性的视角和光照条件的场景，用于评估新视角合成模型在复杂环境下的性能。

4.实验与结果

表1展示了本文方法与其它基线方法在ACID和RealEstate10k数据集上的定量对比结果，以及在推理时间和内存使用方面的性能。在ACID和RealEstate10k数据集上的新视图合成任务中，本方法在PSNR、SSIM和LPIPS等性能指标上均优于其他方法，生成的图像更加准确和具有视觉吸引力。此外，本方法在推理时间和内存使用方面也表现出色，渲染速度显著快于其他方法，同时占用更少的内存。这些结果表明，本方法在新视图合成任务中不仅性能卓越，而且在效率和资源消耗上也具有显著优势。

表1 本文方法与其他基线方法在ACID和RealEstate10k数据集上的定量对比结果

图4展示了在RealEstate10k（上部）和ACID（下部）测试集上的新视图生成的定性比较。图像从左到右依次为：参考图像（Ref.）、目标视图（Target View）、本方法（Ours）、Du等人方法、GPNR方法和pixelNeRF方法。从比较结果可以看出，本方法在生成的新视图中不仅图像更准确、视觉上更具吸引力，而且在处理分布外示例（如底行的小溪）时表现得更好。本方法生成的图像在细节和颜色还原上优于其他方法，而其他方法则表现出不同程度的模糊和失真。通过这些比较，展示了本方法在新视图合成任务中的优越性。

图4在RealEstate10k（上部）和ACID（下部）测试集上的新视图生成的定性比较

图5消融实验通过直观的视觉对比，展示了极线变换器和采样方法对于解决尺度奇异和避免局部极小值的重要性，去除这些组件会显著降低图像质量。而深度正则化对图像质量的影响较小，主要起到微调作用。

图5 消融实验的结果，比较了不同组件对模型性能的影响

表2的消融实验通过精确的数值对比，比较了不同组件对模型性能的影响，具体包括PSNR、SSIM和LPIPS三个指标。总的来说，极线编码器和概率采样是生成高质量新视角图像的关键组件，移除这些组件会显著降低图像质量。尽管深度编码对图像质量也有重要影响，但程度不如前两者。深度正则化对图像质量的影响相对较小，但仍有助于提升模型的稳定性和细节保持。

表2 不同消融实验的定性比较，给出了不同情况下生成的图像示例