【3DGS】从新视角合成到3D Gaussian Splatting

UnderTurrets

已于 2024-07-04 15:18:36 修改

阅读量7.3k

点赞数 30

文章标签：图形渲染计算机视觉 3d

于 2024-01-31 21:41:14 首次发布

本文链接：https://blog.csdn.net/qq_50791664/article/details/135932903

版权

本文介绍了新视角合成任务，着重讲解了3DGS的三维重建方法，通过SFM获取点云并构建高斯点云模型，利用球谐函数表示颜色和形状。与NeRF的体渲染相比，3DGS通过泼溅(splatting)和并行计算优化渲染过程，但存储需求较大。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言：什么是新视角合成任务

定义

新视角合成(Novel View Synthesis)，属于计算机视觉领域，该任务要求：

输入源图像(Source)
输入源姿态(Source Pose)
输入目标姿态(Target Pose)

最终获得：

目标姿态对应的的图片(Target)

无论是2020ECCV的best paper，NeRF，还是2023年爆火的3DGS，都是为了完成NVS任务。

一般步骤

三维重建： 从已有视角的图像中推断出场景的三维几何信息，包括物体的形状和位置。
渲染： 利用三维重建的信息，通过渲染技术生成新视角下的图像，考虑光照和纹理等因素。

这两个步骤是新视角合成的基本框架，涵盖了几何重建和图像合成的关键概念。在实践中，可以根据具体应用的需求进一步细化这些步骤，例如加入光照模型、深度合成等处理，以提高合成图像的质量和真实感。

NeRF的做法

让我们来以NeRF为例子，更加深刻地了解一个新视角合成任务的步骤。当然，笔者不会写的特别详细，否则这篇文章就变成NeRF的介绍了。如果对NeRF特别感兴趣，可以阅读笔者的另一篇文章。

在这里插入图片描述

NeRF的三维重建

NeRF成功最大因素就在于它借用了深度学习的东西去进行三维重建。简单地说，NeRF利用多层感知机(MLP)创建了一个函数。

在这里插入图片描述

这个函数接受一个向量 $(x,y,z,\theta,\phi )$ 作为输入，其中， $(x, y, z)$ 表示这个点在空间中的坐标， $(\theta,\phi )$ 表示观察角度（俯仰角pitch和偏航角yaw）。它的输出是 $(RGB,\sigma )$ 。RGB很好理解，就是这个点的颜色。而 $\sigma$ ，是一个被称为体素密度的计算量。这两个输出的量是为了后面的体渲染做准备。

有了这个函数之后，对于三维空间中指定坐标的任何一点，都可以知道它的 $(RGB,\sigma )$ 。而且，由于使用的是MLP来表示这个函数，那么这个函数就是连续的、可微分的，也就可以用反向传播去优化。

NeRF的渲染

在这里插入图片描述

NeRF的渲染方式采用经典的体渲染。具体的算法本文不再赘述。总而言之，体渲染需要三个参数作为输入：

目标位姿
空间中每个位置的体素密度
空间中每个位置的RGB颜色值

然后输出：

目标位姿对应的图片

当然，这种方法也是可微的。

这种体渲染的方式需要以像素为单位生成光线，然后在光线上对空间内的点进行采样，因此，每个像素点在渲染时都需要计算对应的光线，成本相当高昂，在渲染高分辨率图像时帧率非常低下，无法做到实时渲染。

同样基于这个原因，NeRF优化参数时，在源图像与生成图像上只会选择一些像素点，去计算RGB颜色值的损失，进行反向传播，优化MLP的参数，而不是将所有像素点都拿来计算损失。

3DGS的三维重建

从一组图片估计点云

3DGS使用SFM(Structure from Motion)方法完成了从一组图片估计点云的步骤，甚至不需要给出相机的位姿就可以获得点云。这是一种非常成熟的方法，由Schönberger和Frahm等人于2016年提出，已经封装在COLMAP库中，在3DGS开源的代码中可以直接调用。

在这里插入图片描述

此方法的具体内容不是本文要探讨的，可阅读原文献。

高斯点云模型

3DGS从获得的稀疏点云开始，创建并且优化高斯点云。每个高斯点包含以下几个用来渲染的重要属性：

点的坐标，Position，即3D高斯函数的均值(Mean)
协方差矩阵，Covariance matrix，决定这个高斯点的形状
不透明度，Opacity $\alpha$ ，在渲染时用到
球谐函数，Spherical harmonics，在3DGS中表示这个高斯点在任意视角下的颜色

在这里插入图片描述

球谐函数

球谐函数（Spherical Harmonics, SH）是一组定义在球面上的特殊函数，通常用来表示球面上的函数。球谐函数在图形学、计算机图形学和计算机图像等领域中广泛应用。在3DGS中，球谐函数用于近似光照和颜色分布。

虽然球谐函数是定义在球面上，但是这个函数的输入并不是坐标 $(x, y, z)$ ，而是视角 $(\theta,\phi )$ ，它的输出是RGB颜色值。

在这里插入图片描述

只要给定了欲生成图片的目标位姿之后，就可以知道这个点对应的视角 $(\theta,\phi )$ ，从而根据这个函数计算这个点在图片上应该呈现出的颜色。因此，球谐函数的参数也是优化的目标之一。

参数优化

在这里插入图片描述

使用所有的高斯点，使用源图像的位姿，渲染出图像
根据源图像和渲染图像，计算损失，并反向传播进行优化。优化的对象有：
- 协方差矩阵，Covariance matrix
- 不透明度，Opacity $\alpha$
- 球谐函数，Spherical harmonics
对高斯点的数量进行控制，即进行克隆、分裂或者删除