120 FPS！OmniGS：全景图片的极致渲染（中山大学&港科大）

自动驾驶之心

于 2024-04-14 00:01:24 发布

阅读量207

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247599552&idx=3&sn=ab4af17c991547c6d03c6e2c93ad6e6a&chksm=cf5d9d3c16a70dcaf351f699f138ff4631d69e9bdda36cdd4888d2db4381132c4408169f398d&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『3D GS』技术交流群

论文作者 | Longwei Li

编辑 | 3D视觉之心

全向视角的优势

传统大视场重建方法依赖于多视角几何和因子图求解器，通常生成稀疏地图，在现实探索场景中效果不佳。随着 NeRF 技术的进步，已经有了很多专为大视场场景设计的方法，在新视图合成方面取得了成功，但辐射场采样的计算强度仍然是一个挑战，导致训练或推断速度较慢。尽管360-GS在全向图像渲染质量和训练速度方面优于基于 NeRF 的方法，但其两阶段投影喷溅方法并不是最优的。此外，它对室内布局先验的依赖限制了其在多房间规模和户外场景中的泛化能力。

OmniGS 利用直接的屏幕空间喷洒来加速渲染，不依赖于场景假设或深度网络，利用 GPU 加速全向光栅化器，实现了快速高保真度的重建，使其能够应用于各种室内和室外场景。

（大拇指往上滑，点击最上方的卡片关注我，整个操作只会花你 1.328 秒，然后带走未来、所有、免费的干货，万一有内容对您有帮助呢～）

也欢迎加入【3D视觉之心】全栈技术交流群

全向 3D GS

相机模型

使用等经纬度投影模型来利用全向图像，这是在全向重建环境中最常用的形式。如图2a所示，相机坐标系就是 SLAM 常见形式。相机 X-Z 平面对应于等经纬度投影的赤道平面。为了保持高保真度，我们使用原始的反三角函数来计算球面纬度和经度：

其中，是从单位球心到相机空间中3D高斯中心的距离，是4象限反正切函数，我们有 ππ 和 ππ。然后，上述纬度和经度（图2c）可以转换为均匀的屏幕空间坐标（图2d）：

因此，有。在投影过程的最后，均匀的屏幕空间坐标被转换为图像上的像素位置（图2b）：

前向渲染

和 3DGS 一样，每个图像像素的最终颜色是根据α混合模型确定的：

对于透视相机来说，这些高斯根据它们的值从最近到最远进行排序。然而，在全向视觉的情况下，排序的标准被改为。第个高斯具有颜色和采样强度 α。此外，α 由其不透明度和其 2D 高斯分布上的采样值确定：

在2D高斯函数上的采样被定义为：

为了得到投影到等经纬度图像平面上的高斯的 2D 协方差，l根据局部仿射逼近方法进行计算：

具体的雅可比推导：

跳过的第三行和列，以直接获得协方差矩阵。通过近似公式（7），前向过程可以大大加速，实现高帧率的实时渲染。总体而言，在基于瓦片的前向渲染过程中，整个等经纬度图像被划分为由相同大小的瓦片组成的网格。首先，将3D高斯的中心和协方差投影到图像屏幕上。其次，每个瓦片计算其影响半径覆盖该瓦片的 2D 高斯数量，每个影响生成一个实例。第三，同一个瓦片内的所有像素同时渲染，每个像素分配给一个线程。这些线程合作地获取当前瓦片观察到的高斯实例的属性，然后分别累积实例进行 α 混合，直到像素的 α（出于数值稳定性考虑，停止阈值不是精确的1）。

后向优化

为了优化3D高斯函数的世界位置、颜色（由和球谐系数导出）、旋转、尺度和不透明度，我们最小化渲染图像和地面真实图像之间的光度损失：

反向梯度从通过完整的投影过程流向 3D 高斯函数的属性。具体而言，除了与相机模型无关的和之外，对属性的梯度是我们需要推导和修改的内容，以进行全方位优化。我们可以应用多变量函数的链式法则来获得：

整体流程

OmniGS 的重建始于一组 SFM 校准的等经纬度图像{}，每个图像都有一个姿态。我们从稀疏的点云中获得初始的 3D 高斯函数，然后开始一系列的优化迭代。对于每次迭代，我们从随机洗牌的{}中选择一个视图，从渲染得到，然后计算，及其对应的反向梯度。在基于以下策略密集化之后，我们通过一步优化器来优化所有的 3D 高斯函数。

采用了基于梯度的密集化控制策略，但不是使用透视梯度，而是根据其在全向屏幕空间位置上的梯度来判断是否在视线中密集化一个高斯函数，即之前推导和记录的。具体而言，对于梯度足够大的高斯函数，如果它们的尺度过大或过小，则将分裂或克隆以密集化，增强其表示细节的能力。我们还修剪了尺度或屏幕空间半径过大的高斯函数，意图是增强细节。此外，所有高斯函数的不透明度也对密集化控制起作用。不透明度过小的高斯函数也会被修剪。大不透明度会被重置以鼓励更多的密集化。周期性地执行密集化控制过程，直到达到一定数量的迭代。

效果如何

课后笔记

OmniGS 是一种新型快速逼真3D重建方法：

利用了直接全向屏幕空间泼溅的速度优势。
推导了后向梯度，并实现了基于实时瓦的全向栅格器。

效果：

即使训练时间更少，OmniGS 也可以达到 SOTA 的重建质量和渲染 FPS。- 把全向的渲染结果裁剪成透视图，效果是由于直接在透视图上做

发展潜力：

OmniGS 为了追求速度，忽略了三角函数的周围性，可以牺牲更多的计算资源来实现更好的质量
可以和全向 SLAM 结合，实现更多机器人应用

参考

[1] OmniGS: Omnidirectional Gaussian Splatting for Fast Radiance Field Reconstruction using Omnidirectional Images

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！

自动驾驶感知：目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群；

多传感器标定：相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群；

多传感器融合：多传感器后融合技术交流群；

规划控制与预测：规划控制、轨迹预测、避障等技术交流群；

定位建图：视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群；

三维视觉：三维重建、NeRF、3D Gaussian Splatting技术交流群；

自动驾驶仿真：Carla仿真、Autoware仿真等技术交流群；

自动驾驶开发：自动驾驶开发、ROS等技术交流群；

其它方向：自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群；

扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】平台矩阵，欢迎联系我们！

自动驾驶之心

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
120 FPS！OmniGS：全景图片的极致渲染（中山大学&港科大）

点击下方卡片，关注“自动驾驶之心”公众号戳我->领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『3D GS』技术交流群论文作者|Longwei Li编辑 | 3D视觉之心全向视角的优势传统大视场重建方法依赖于多视角几何和因子图求解器，通常生成稀疏地图，在现实探索场景中效果不佳。随着 NeRF 技术的进步，已经有了很多专为大视场场景设计的方法，在新视图合成方面取得...
复制链接

扫一扫