600 FPS!通过剪枝对3DGS进行50倍压缩!

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊 

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

dcc5e48f6cef943a498ff4be7f9e797b.jpeg

0. 这篇文章干了啥?

近年来,在利用从不同视角捕获的图像重建3D场景的光辐射场方法方面取得了显著进展。神经辐射场(NeRF)技术的出现对3D场景建模和重建领域产生了重大影响。从给定的一组训练图像中高效生成逼真的新视图已成为计算机视觉研究的焦点,具有广泛的应用。NeRF能够从2D表示中提取3D对象的本质,同时保持紧凑性,这强调了其在文献中的影响力和普及度。

尽管NeRF取得了成功,但传统的NeRF存在训练和渲染速度慢的问题。为了应对这一挑战,提出了各种方法,但它们往往需要在渲染图像质量上做出妥协。最近的研究转向了明确的场景表示,如基于体素或基于点的结构,以提高渲染效率。例如,利用GPU上的3D体素网格以及输入的多分辨率哈希编码,可以持续减少所需的操作并实现实时性能。同样,目前最高效的光辐射场解决方案依赖于通过插值存储在体素、哈希网格或点中的值来实现的连续表示。虽然这些方法的连续性质有助于优化,但渲染所需的随机采样可能会产生计算开销并引入噪声。

该领域的一个最新进展是引入了可微分的3D高斯平铺(3DGS),这使得能够生成稀疏的自适应场景表示。这种表示可以在GPU上快速渲染,从而大大提高了速度。3DGS结合了现有方法的最佳特性:利用3D高斯表示进行场景优化,提供了最先进的视觉质量和具有竞争力的训练时间,而基于图块的平铺解决方案则确保了各种数据集下1080p分辨率的高质量实时渲染。与NeRF方法不同,3DGS通过将3D高斯投影到2D图像空间,并结合光栅化使用不透明度来简化训练和渲染,使得单个GPU上能够实时渲染。此外,在参数空间中显式存储场景结构允许直接编辑3D场景。然而,在使用可微分的3DGS时会出现一些挑战,特别是在优化包含数百万个高斯的场景时,这可能需要大量的存储和内存。虽然专用的管线在高端GPU上展示了实时性能,但无缝集成到VR/AR环境或游戏中仍然是一个挑战,特别是在与多边形模型的硬件光栅化一起工作时。

在本文中,我们旨在压缩高斯溅射表示,同时保持其渲染速度和质量,从而便于其在各种领域中的应用,如具有有限存储或内存的物联网设备。我们的主要见解是,学习到的3DGS(三维高斯溅射)模型对底层场景表现出过度拟合,允许在不牺牲性能的情况下移除或剪枝许多高斯函数,尤其是因为透明度值显著较低。我们从预训练的优化高斯场景开始训练过程,基于透明度级别和梯度值迭代地剪枝它,然后进行微调,以实现与基线优化场景相比更优越的性能-压缩权衡。

下面一起来阅读一下这项工作~

1. 论文信息

标题:Trimming the Fat: Efficient Compression of 3D Gaussian Splats through Pruning

作者:Muhammad Salman Ali, Maryam Qamar, Sung-Ho Bae, Enzo Tartaglione

机构:巴黎理工学院、韩国庆熙大学

原文链接:https://arxiv.org/abs/2406.18214

2. 摘要

近年来,由于神经辐射场(Neural Radiance Fields)和更近的3D高斯溅射(3D Gaussian Splatting, 3DGS)模型最初提供的端到端训练能力,3D模型的利用获得了牵引力。后者通过本质上在训练过程中加快收敛速度和提供广泛的编辑性而具有显著优势。然而,尽管取得了快速的进展,但关于这些模型可扩展性的文献仍处于起步阶段。在这项研究中,我们在解决这一差距方面迈出了一些初步步骤,展示了一种方法,该方法能够同时实现这些模型的内存和计算可扩展性。具体来说,我们提出了“剔除冗余”(Trimming the fat),这是一种基于后验梯度的迭代剪枝技术,用于消除模型中编码的冗余信息。我们在广泛认可的基准测试上的实验结果表明了我们方法的有效性,揭示了可以去除高达75%的高斯核,同时保持或甚至改善基线性能。我们的方法在保持与基线模型类似性能的同时实现了大约50倍的压缩,并且能够将计算速度提高到每秒600帧。

3. 效果展示

3439a12cbcbc10074534aeeab2faa7ca.png

我们展示了Tanks&Temples数据集中的训练场景、Deep Blending数据集中的游戏室场景以及Mip-NeRF360数据集中的花园场景的可视化,这些场景平均需要大量的内存资源。在图4、5和6中,我们展示了通过γiter指示的不同剪枝水平下测试集图像的可视化效果。我们的“去除冗余”迭代剪枝流程在保持相当视觉质量的同时,实现了显著的压缩率。在图4、5和6所描绘的所有场景中,我们的方法将高斯splat压缩约4倍,同时保持了与3DGS-30K相似的视觉质量。此外,当γ=0.60时,我们的方法实现了平均压缩比约22倍,同时保持了与3DGS-7K相当的视觉质量。

58ad170865ef1f2441f39651aefa9bfc.png

9c73767731442b3f90dc8fd3c7446a67.jpeg60924d62b68f63d20a5c331c677d520c.jpeg

4. 主要贡献

我们的主要贡献如下。

(1)我们基于优化的3DGS构建3D先验以进行剪枝,使得在微调剩余高斯函数以准确捕获场景特征的同时,能够移除冗余的高斯函数。

(2)我们观察到,与基于梯度的方法相比,简单的剪枝方法是次优的,并且没有这种先验知识的剪枝会失败。此外,我们展示了与其他压缩流程的兼容性,如。

(3)使用我们提出的方法,即使在剪枝了50%的高斯溅射之后,我们仍然达到了最先进的性能,显著提高了3DGS的可扩展性。我们的压缩流程在场景保真度和压缩之间实现了更好的平衡,超越了基线。

5. 基本原理是啥?

我们修剪管道的概述。从预先训练的3DGS-30k场景中,我们首先对其进行固定次数的迭代修剪,然后进行微调。然后,我们对20000次迭代进行进一步的微调,以获得我们最终优化的场景。

c424333bc0869f4c45070f000d9b115f.png

6. 实验结果

去除冗余。我们对自己的方法、3DGS-30k和3DGS-7k基线进行了比较分析,并采用了基于不透明度的剪枝方法,该方法从(5)中移除了梯度信息。如表1和图3所示,我们考察了跨基准数据集的压缩性能的权衡。在所有数据集中,高斯splat可以剪枝高达4倍,与基线相比显示出改进或相似的性能。值得注意的是,即使在显著高的剪枝级别下,当平均场景大小小于25MB时,我们提出的剪枝技术仍能保持与3DGS-7k变体相当或甚至更优的性能,平均压缩率高达24倍。这无需任何额外的端到端压缩管道集成即可实现,突出了我们提出的方法的独立可扩展性。

544d0f365ed45578d5f61b74f4511e3e.png

基于不透明度的剪枝在小剪枝阈值下与梯度感知剪枝具有相似的性能。然而,从图3的结果可以看出,在高压缩率下,性能差异变得更加明显。融入梯度信息可以进一步提高剪枝的性能。这种增强的原因在于,某些场景特征(如天空、玻璃等)可能具有较低的不透明度,但对于整体场景渲染仍然至关重要。通过考虑梯度信息,我们确保仅剪枝包含不重要特征的高斯分布。我们的提议,即融入梯度信息,在高剪枝率下表现出显著的有效性。

ce9f88672a55cd83c6227bed41cac728.png

与端到端压缩相结合去除冗余。我们提出的剪枝方法可以作为3DGS中各种端到端压缩技术的即插即用组件。我们实现了最先进的压缩性能。Niedermayr的方法以预训练的高斯分布作为其压缩过程的基础。我们将这个预训练的高斯分布替换为我们剪枝后的高斯分布,并应用端到端压缩过程。这种组合与基线相比实现了50倍的压缩,同时保持了相当的性能。此外,如表2所示,与Niedermayr的原始方法相比,我们在保持性能改进的同时实现了2倍的压缩。

67179e65c3898d73f680c318c01509e8.png

7. 总结 & 未来工作

在这项工作中,我们提出了一种名为“Trimming the fat”的针对3D高斯splat的梯度感知迭代剪枝技术。我们的方法有效地将高斯splat缩小了4倍,同时没有牺牲生成质量。特别是在较高的剪枝水平下,我们提出的方法实现了约25倍的压缩比,并在已建立的基准数据集上实现了高达600 FPS的帧率,同时对生成性能的影响微乎其微。

得到的高度压缩的点云可以无缝地通过网络传输并在资源受限的设备上使用,为移动VR/AR和游戏等领域提供了潜在的应用。未来的研究方向包括研究量化感知训练方法的集成,以进一步提高3DGS的压缩性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

97a866edaa8f96aee7c1fd0363945c54.png
▲长按扫码添加助理
3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

da45dc84fd486030cfc2c7e52a5182fd.jpeg
▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

4074676d5560fb7733fe77226e1b569d.jpeg
▲长按扫码学习3D视觉精品课程
3D视觉相关硬件
图片说明名称
a3948480a2af6f6f8e32646831b95938.png硬件+源码+视频教程精迅V1(科研级))单目/双目3D结构光扫描仪
1499689a1dcce706ced661a9898cb86a.png硬件+源码+视频教程深迅V13D线结构光三维扫描仪
85ad8fa13966ad2f8f76805d5b6cd660.jpeg硬件+源码+视频教程御风250无人机(基于PX4)
88f76a617b80fb66b0dada01858f61da.png低成本+体积小
+重量轻+抗高反
YA001高精度3D相机
957e95074aeb3a8f2981d111505f24bf.png抗高反+无惧黑色+半透明KW-D | 高精度3D结构光
开源相机
c26e636078779a5848c82e9f208e4872.png硬件+源码‍工坊智能ROS小车
b5d97708fb8bf7e23f731ce51720b0c2.png配套标定源码高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多
—   —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

outside_default.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值