Mip-Splatting: Alias-free 3D Gaussian Splatting(多尺度点云溅射)

前情提要

各位看官老爷大家好,之前写了一篇3DGS的读书笔记三维高斯溅射(3D Gaussian Splatting,3DGS)-CSDN博客,今天为大家带来Mip-Splatting的读书笔记,而这个工作的名字就展现了它的厉害之处-消除了放大时出现的高频伪影。让我们来先看一段原文中的开篇内容:

Figure 1. 3D Gaussian Splatting [18] renders images by representing 3D Objects as 3D Gaussians which are projected onto the image plane followed by 2D Dilation in screen space as shown in (a). The method’s intrinsic shrinkage bias leads to degenerate 3D Gaussians exceed sampling limit as illustrated by the δ function in (b) while rendering similarly to 2D due to the dilation operation. However, when changing the sampling rate (via the focal length or camera distance), we observe strong dilation effects (c) and high frequency artifacts (d).

我是翻译大王(图 1. 三维高斯溅射渲染法通过将三维物体表示为三维高斯分布来渲染图像。这些三维高斯分布被投影到图像平面上,然后在屏幕空间中进行二维扩展,如图(a)所示。该方法固有的收缩偏差会导致退化的三维高斯分布超出采样极限,如图(b)中 δ 函数所示,同时由于扩展操作,其渲染效果在某种程度上类似于二维渲染。然而,当改变采样率时(通过改变焦距或相机距离),我们会观察到明显的扩展效应(图(c))和高频伪影(图(d))。)

这段话先大致介绍了3DGS的部分渲染流程,来引出这种方法的一个缺点:当改变采样率时(通过改变焦距或相机距离),会有明显的扩展效应和高频伪影,导致质量下降。(这也反映了Mip-Splatting是属于改善3DGS生成质量的工作)

Paper地址:https://arxiv.org/pdf/2311.16493.pdf

项目地址:https://github.com/autonomousvision/mip-splatting

1.Abstract

作者在原文摘要中说明了3DGS出现以上现象的原因:缺乏三维频率约束以及使用了二维扩展滤波器。而为了解决这个问题,作者引入了一种三维平滑滤波器它根据输入视角所产生的最大采样频率来限制三维高斯基元的大小,从而消除了放大时出现的高频伪影。此外,用二维 Mip 滤波器(模拟二维盒式滤波器)取代二维扩展滤波器,能有效地减轻走样和扩展问题。同时作者也在单尺度图像上进行训练并在多尺度上进行测试等场景,验证了他们所提出方法的有效性。

 2.Introduction

2.1NVS和3DGS的简要介绍

新视角合成(NVS)在计算机图形学和计算机视觉领域中发挥着关键作用,其应用广泛,涵盖虚拟现实、电影摄影、机器人技术等多个方面。

三维高斯溅射(3DGS)将复杂场景表示为一组三维高斯分布,这些三维高斯分布通过基于溅射的光栅化渲染到屏幕空间中。每个三维高斯分布的属性,即位置、大小、方向、不透明度和颜色,都通过多视图光度损失进行优化。随后,在屏幕空间中应用二维扩展操作来进行低通滤波。尽管三维高斯溅射在新视角合成(NVS)方面取得了令人瞩目的成果,但当相机视角与训练时所观察到的视角不同时,例如进行放大和缩小时,它会产生伪影。作者发现,这种现象的根源可归因于缺乏三维频率约束以及使用了二维扩展滤波器(一方面这个filter导致了重建场景优化出的高斯球会偏小,也就是信号频率偏高,有时会出现极高的信号频率。另一方面这个filter并不是一个正确的反走样滤波,在改变相机采样率的情况下起不到一个合理的反走样效果)。

具体来说,缩小操作会导致在屏幕空间中投影的二维高斯分布的尺寸变小,而应用相同程度的扩展操作会导致出现扩展伪影。相反,放大操作会导致出现侵蚀伪影,因为投影的二维高斯分布会扩大,但扩展程度保持不变,从而导致侵蚀现象,并在二维投影中造成高斯分布之间出现错误的间隙

2.2.方法1.三维平滑滤波器(3D smoothing filter)

作者提议在三维空间中对三维场景表示进行正则化处理。作者的关键见解是,三维场景可重建的最高频率本质上受到输入图像采样率的限制。首先根据奈奎斯特 - 香农采样定理 ,基于训练视角推导出每个高斯基元的多视图频率边界。在优化过程中,通过对三维空间中的三维高斯基元应用低通滤波器,作者有效地限制了三维场景表示的最大频率,使其满足奈奎斯特极限。在训练完成后,这个滤波器成为场景表示的一个固有部分,无论视点如何变化,它都保持不变。

因此,如下图中分辨率提高 8 倍的图像所示,作者的方法消除了三维高斯溅射(3DGS)在放大时出现的伪影。

2.3.方法2.二维Mip滤波器(2D Mip filter)

尽管如此,以较低的采样率(例如,缩小视角)渲染重建的场景依然会导致混叠现象。先前的研究 通过采用圆锥体追踪以及对输入的位置编码或特征编码应用预滤波的方法来解决混叠问题,但这些方法并不适用于三维高斯溅射(3DGS)。因此,作者引入了一种专门设计的二维 Mip 滤波器(类似 “纹理金字塔”),以确保在不同尺度下都能实现无混叠的重建和渲染。二维 Mip 滤波器通过用二维高斯低通滤波器近似模拟实际物理成像过程中固有的二维盒式滤波器 。与先前的研究不同,那些研究依赖多层感知器(MLP)在使用多尺度图像进行训练时对多尺度信号的插值能力,而作者对三维高斯表示进行的闭式修正实现了出色的分布外泛化能力:在单一采样率下进行训练,就能在与训练时不同的各种采样率下实现精确的渲染

3.Preliminaries

3.1.采样定理

采样定理,也被称为奈奎斯特 - 香农采样定理 ,是信号处理和数字通信领域中的一个基本概念,它描述了在何种条件下可以从离散样本中准确地表示或重建一个连续信号。为了从离散样本中准确地重建一个连续信号且不丢失信息,必须满足以下条件:

1.连续信号必须是带限的,并且不能包含任何高于特定最大频率 ν 的频率成分。

2.采样率v'必须至少是连续信号中最高频率的两倍。

在实际操作中,为了满足从离散样本重建信号时的约束条件,在采样前会对信号应用低通滤波器或抗混叠滤波器。该滤波器会去除高于v'的任何频率成分,并衰减可能导致混叠的高频内容

3.2.3D Gaussian Splatting

3DGS在我先前那篇文章已经很详细的讲解了,这里不再过多赘述。

4.Sensitivity to Sampling Rate

在传统的正向溅射(forward splatting)中,高斯基元的中心pk​和颜色ck是预先确定的,而三维高斯协方差∑ k是根据经验选择的。相比之下,3DGS通过反向传播多视图光度损失,在逆渲染框架中联合优化所有参数

而这种优化存在模糊性,如下图所示,该图展示了一个简单的示例,涉及一个物体和一个有 5 个像素的图像传感器。考虑图(a)中的 3D 物体,它由一个 3D 高斯近似,并投影到屏幕空间(蓝色像素)。由于使用高斯核(大小约为 1 像素)进行屏幕空间膨胀(公式 5),图(b)中由狄拉克 δ 函数表示的退化 3D 高斯会产生类似的图像。这说明 3D 高斯的尺度没有得到适当的约束。在实际情况中,由于其固有的收缩偏差,3DGS 在优化过程中确实会系统性地低估 3D 高斯的尺度参数。

这在相似采样率下进行渲染时不会产生影响,但在放大或移动相机靠近时会导致侵蚀效应。这是因为膨胀后的二维高斯在屏幕空间中变小了。在这种情况下,渲染图像会出现高频伪影,使物体结构看起来比实际更细,如下图(d)所示。

相反,屏幕空间膨胀在降低采样率时也会对渲染产生负面影响,如下图(c)所示,它是图(a)的缩小版本。在这种情况下,膨胀会以一种不符合物理规律的方式在像素间传播辐射。注意在图(c)中,3D 物体投影覆盖的面积小于一个像素,但膨胀后的高斯并没有衰减,积累的光线比实际到达像素的光线更多。这会导致亮度增加和膨胀伪影,严重降低自行车轮辐的外观质量

5.Mip Gaussian Splatting

它对原始的三维高斯溅射(3DGS)模型进行了两项修改。

1.引入了一种三维平滑滤波器(3D smoothing filter),将三维表示的频率限制在由训练图像确定的最大采样率的一半以下,从而消除放大时出现的高频伪影。

2.证明了用二维 Mip 滤波器(2D Mip filter)取代二维屏幕空间膨胀滤波器是可行的,该二维 Mip 滤波器近似于物理成像过程中固有的盒式滤波器,能有效减轻混叠和膨胀问题。综合来看,多尺度点云溅射(Mip-Splatting)能够在各种采样率下实现无伪影渲染 。接下来,我们将详细讨论三维平滑滤波器和二维 Mip 滤波器。

5.1.3D Smoothing Filter

从多视图观测中重建三维辐射场是一个众所周知的不适定问题,因为多种截然不同的重建结果可能会产生相同的二维投影。作者的关键想法是三维重建场景受限于由训练视图定义的采样率。

下图为原文中的例子

此示例展示了 5 个处于不同深度 d 且具有不同焦距 f 的相机。在这里,相机 3 决定了最小的T^,进而决定了最大采样率v^  。

根据 3.1 节的奈奎斯特定理,作者旨在在优化过程中限制三维表示的最大频率

5.1.1.多视图频率界限(Multiview Frequency Bounds)

多视图图像是连续三维场景的二维投影。离散的图像网格决定了我们从连续的三维信号中采样点的位置。这个采样率与图像分辨率、相机焦距以及场景到相机的距离本质上相关。对于以像素为单位焦距为 f 的图像,屏幕空间中的采样间隔为 1。当这个像素间隔反向投影到三维世界空间时,在给定深度 d 处会产生一个世界空间采样间隔T^,采样频率v^是其倒数:

在采样频率为ν^的情况下,重建算法能够重建频率高达2ν^的信号成分。因此,在溅射过程中,尺寸小于2T^ 的基元可能会导致混叠伪影,因为其尺寸小于采样间隔的两倍

利用基本图元 pk​ 的中心来近似表示深度 d,并且在进行采样间隔估计时忽略遮挡的影响。由于基本图元的采样率取决于深度,并且在不同相机中有所不同,所以我们将基本图元 k 的最大采样率确定为:

其中 N 是图像的总数,1n​(p) 是一个指示函数,用于评估基本图元的可见性。如果高斯中心 pk​ 落在第 n 台相机的视锥体范围内,则该函数值为真。直观地说,我们选择这样的采样率,使得至少存在一台相机能够重建相应的基本图元。

5.1.2.3D Smoothing(三维平滑处理)

将每个 3D 高斯基本图元Gk​投影到屏幕空间之前,对其应用一个高斯低通滤波器Glow​:

这一操作效率很高,因为将两个协方差矩阵分别为Σ1​和Σ2​的高斯函数进行卷积,会得到另一个方差为Σ1​+Σ2​的高斯函数,因此有:

s是一个标量超参数,用于控制滤波器的大小。请注意,每个基本图元的 3D 滤波器的尺度\frac{s}{v_{k}}​是不同的,因为它们取决于该基本图元在其中可见的训练视图。通过采用 3D 高斯平滑处理,确保对于至少一台相机而言,任何高斯函数的最高频率分量都不超过其最大采样率的一半。需要注意的是,Glow​成为了 3D 表示的一个固有部分,在训练完成后保持不变

5.1.3.2D Mip Filter(二维Mip滤波器)

尽管3D平滑滤波器能有效地减轻高频瑕疵,但以较低的采样率(例如,缩小画面或把相机移得更远)渲染重建后的场景,仍然会导致混叠现象。为了克服这一问题,作者使用 2D Mip filter 取代了 3D 高斯 splatting(3DGS)算法中的the screen space dilation filter of 3DGS (而它的主要作用是避免投影到屏幕空间的 2D 高斯过小(小于像素尺寸)的退化情况,并通过对投影后的 2D 高斯进行处理来调整其尺度 )

更具体地说,就是模拟了物理成像过程 ,在这个过程中,撞击相机传感器上某个像素的光子会在该像素的区域内进行积分。虽然理想模型会在图像空间中使用二维盒式滤波器,但为了提高效率,作者使用二维高斯滤波器来近似它:

作者的 2D Mip filter与EWA filter有相似之处,但它们的基本原理截然不同。

作者的 Mip 滤波器旨在模拟成像过程中的盒式滤波器,其目标是精确逼近单个像素

EWA 滤波器的作用是限制频率信号的带宽,并且滤波器的大小是根据经验来选择的

更多有关EWA filter的内容请参阅以下文献

aul S Heckbert. Fundamentals of texture mapping and im- age warping. 1989. 3, 5

Matthias Zwicker, Hanspeter Pfister, Jeroen Van Baar, and Markus Gross. Ewa volume splatting. In Proceedings Visu- alization, 2001. VIS’01., pages 29–538. IEEE, 2001. 2, 3, 4, 5, 6, 7, 8,1,9

最后这里再放一段效果的展示:

其中PSNR 是峰值信噪比,通常用于衡量图像或视频的质量,特别是在压缩或处理后的失真情况。采用MSE误差,与人眼感知一致性较低。范围通常在 20 到 40dB 之间,更高的值意味着更好的质量。

SSIM(结构相似性指数)是一种衡量图像或视频质量的客观指标,用于评估处理后图像与原始图像的相似程度。通过分析图像的亮度、对比度和结构信息来判断失真程度,与人眼感知一致性较高。范围通常在0到1之间,更高的值意味着更好的质量。

LPIPS(Learned Perceptual Image Patch Similarity,基于学习的感知图像块相似性)是一种结合深度学习模型的图像质量评估指标,旨在更贴近人类视觉感知。与传统指标(如 PSNR、SSIM)相比,LPIPS 通过模拟人类对图像结构、纹理和语义的感知,能够更准确地量化图像失真程度,因此与人眼感知一致性更高,范围通常在0到1之间,更低的值意味着更好的质量。

更多实验细节请参阅原文

5.2.Limitations

为了提高效率,文中的方法采用高斯滤波器来近似盒式滤波器。然而,这种近似会引入误差,尤其是当高斯函数在屏幕空间中较小时。并且随着画面进一步缩小(拉远视角),误差会变得更大。此外,由于每m=100次迭代就必须计算每个 3D 高斯的采样率,训练开销也会略有增加。目前,这种计算是使用 PyTorch进行的,而一个更高效的 CUDA 实现有可能减少这种开销。

由于采样率仅取决于相机的姿态和内参,设计一种更好的数据结构用于预计算和存储采样率是未来的一个研究方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值