提升40%!XScale-NVS:极致细节渲染整个滕王阁(清华&阿里)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心3DGS技术交流群

论文作者 | Ruqi Huang

编辑 | 3D视觉之心

宏观结构和微观细节,不能两全?

现有三维视觉和新视角合成(NVS)技术在处理真实世界大规模场景时面临的多个关键局限性。

f1a0400a2b644bc95b046ae6a88d9c59.gif

传统的基于明确表面的三维重建方法,如多视图立体(MVS),尽管在获取大规模结构方面表现出色,但往往难以捕获场景的微观细节。这类方法在构建三维模型时依赖于高分辨率的离散化过程,这限制了它们在处理细微纹理和小尺度特征时的有效性。此外,这些技术通常使用UV映射来纹理化模型,但在复杂或广阔的场景中,UV映射易受到畸变影响,这会在渲染过程中产生可见的伪影和质量退化。

隐式体积表示方法(如基于神经辐射场的 NeRF)提供了一种表达高空间分辨率的新途径,通过对整个体积场进行连续建模,能够从任意新视角渲染出细致的图像。然而,这些方法在实际操作中需要处理大量的体积数据,这不仅计算成本高,而且在大规模场景中效率低下。更重要的是,由于体积渲染依赖于沿视线对样本的积分,它在处理复杂场景中的视图不一致性时常常导致渲染质量下降,例如在边缘或细节处出现模糊和失真。

64c4f489b75a54e8a90adb08d706e1e2.png

我们的方法在GigaNVS上相对于最先进的方法将平均LPIPS降低了40%,将野生环境下跨尺度神经渲染的边界推向了前所未有的细节和真实感水平。总结起来,我们的主要贡献如下:

为了解决以上挑战,XScale-NVS 提出了哈希特征化流形的表示方法,通过对表面流形进行栅格化,显式地优先考虑多视角一致性,充分释放了体积哈希编码的表达能力。同时设计了一个延迟神经渲染框架,以高效解码表示,并提出了两种定制设计来更好地描述跨尺度细节。

另外还引入了 GigaNVS 数据集,用于评估实际大规模场景的跨尺度、高分辨率新视角合成,XScale-NVS 在 GigaNVS 上相对于 SOTA 平均 LPIPS 降低了 40%。

(大拇指往上滑,点击最上方的卡片关注我,整个操作只会花你 1.328 秒,然后带走未来、所有、免费的干货,万一有内容对您有帮助呢~

92bdafe82b5301f96c20c4110cf2ed08.jpeg

另辟蹊径

哈希特征化流形

cf8cd5893153ef63adc881ec548ac036.png

如图2(a)所示,基于UV的方法,在形状高度复杂的大规模场景中经常遇到的严重扭曲的参数化,本质上导致3D表面  上的特征分布杂乱,而没有保持特征共形性,因此导致了局部细节的拉伸和模糊的伪影。

如图2(b)所示,现有的基于显式3D离散化的表示仅为每个表面基元分配了一个单一的特征描述子,因此未能真实地描述表面基元内部的复杂细节(例如,图中紫色阴影部分的椭圆高斯函数)。

如图2(c)所示,对于隐式体积表示,体积渲染的权重分布在优化过程中分散,即存在许多多视角不一致但权重很高的样本(例如,红色和蓝色的点),这些样本污染了表面颜色的监督并通过传播不准确的颜色梯度误导了表面特征的调整。

为了解决上述限制,XScale-NVS 提出的哈希特征化流形,旨在通过利用多分辨率哈希编码和延迟神经渲染来探索更具表达力的基于表面的特征化方法。

与基于显式3D离散化的现有神经表示类似,首先使用现成的多视图结构光技术重建网格,作为场景的3D表面代理。然后,计算网格  的包围体积 ,并使用体积多分辨率哈希编码 : 对其进行特征化,这给我们带来了一个哈希特征化的体积  。在整个优化过程中,我们利用网格光栅化器  来计算每个像素的3D表面交点 ,并仅在表面交点  处查询多分辨率哈希特征 ,而不是在冗余的体积  中查询。在  的明确指导下,可学习的哈希表  被迫优先考虑具有最重要的精细尺度特征的多视角一致的表面区域 ,从根本上将多余的体积特征化转变为一个具有表现力的基于表面的特征化:

0875561b732e1c73ff22eb039f43ac15.png

图2(d)的特征化:

  • 相比于图2(a),沿着像素射线采样单个表面交点,消除了表面颜色的歧义。

  • 相比于图2(b),利用表面感知哈希编码,能够有效捕捉次原始尺度的细节,无论离散化分辨率如何,都能展现出对大规模场景和跨尺度内容的出色可扩展性。

  • 相比于图2(c),在规则的3D体素网格上分配哈希特征,而不依赖于表面参数化,避免了UV-based特征化中的扭曲问题。

b8f73d364e01a0457b3f083094f06f27.png

如上图所示为延迟神经渲染流程,可以定义为:

dd1a3f71cba24c832889c732a17438a1.png

增强流形特征化

正如图3(b)所示,为了更好地表示跨尺度细节,引入表面多重采样流形变形,哈希特征化流形基本上代表了一个在初始表面附近可变形的锥体,使其更能够处理尺度变化,并更灵活地捕捉微观尺度的细节。

表面多重采样

考虑到一般大场景的跨尺度、野外观测,在每个像素点投射单个射线会忽视非结构化的尺度变化,导致模糊或混叠伪影,原因是在观察跨不同距离或分辨率时,观察表面点时像素颜色存在差异。

多重采样为每个像素投射多个射线,以获得一组表面交点 。为此,我们对 γγ 图像进行了光栅化,其中原始  图像中的每个像素都用 γ 个像素的网格进行了超采样。然后通过分别查询每个样本的多分辨率哈希特征,并使用均值操作将它们汇总,来聚合多个表面交点的信息:c1831b0a16de57a5e309e6965d4a6f56.png

流形变形

由于直接对网格进行特征化,网格上的任何几何缺陷都会影响局部细节的表现能力。所以通过潜空间变形 ξ: 来进一步加强多视角一致性。具体来说,首先使用另一个具有可学习哈希表  的哈希编码  对表面进行特征化。然后,一个微小的 MLP ξ 接受新的哈希特征和视角方向向量  作为输入,在高维特征空间中变形初始表面:

28eee4ca8669d30dd63afc5878ae18ef.png

且看效果

GigaNVS 数据集

包括七个真实世界大规模场景,专为评估跨尺度、高分辨率的新视角合成设计。每个场景包含从不同距离捕获的大量高清5K/8K多视图图像。这个数据集用来测试和展示所提出方法在处理大规模、高细节场景时的表现。

62dc597e678176a3ff84286f5fa93a56.jpeg bdd5218993718c76642819ddcacf4b03.png

对比效果

9ce51ac2c2eaf1fb229947edd5647d54.png 61b0bfc66a0742f0b74a5ff4eec9d2e0.png 9cc4bf51d3a38cc62b30f9474705a7bb.jpeg

消融实验

57352e1f219d42f916d5af84d590465f.png aecf9533292a42eb15cafcd2c0681287.png 241ff960f312f36b18415c6a80369c2a.png

总结一下

XScale-NVS 设计了一种新的表示方法:哈希特征化流形(hash featurized manifold),为实现高保真的跨尺度神经渲染提供了有效的解决方案。这种方法在渲染过程中能够更加精确地捕捉和表达场景的细节,特别是在大规模的真实世界场景中。在自身的 GigaNVS 数据集上,与当前 SOTA 相比,展现出了明显的优势。

局限性:尽管新方法对网格分辨率显示出了较强的鲁棒性,但它仍然不能很好地处理由不正确的几何信息导致的场景的不完整性和遮挡问题。

参考

[1] XScale-NVS: Cross-Scale Novel View Synthesis with Hash Featurized Manifold [2] 项目主页:xscalenvs.github.io

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

f80ae9d3ff8603162aa6e160007ad960.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

a91e86e67c6a96d771d27f7077a32547.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

自动驾驶感知:目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群;

多传感器标定:相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群;

多传感器融合:多传感器后融合技术交流群;

规划控制与预测:规划控制、轨迹预测、避障等技术交流群;

定位建图:视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群;

三维视觉:三维重建、NeRF、3D Gaussian Splatting技术交流群;

自动驾驶仿真:Carla仿真、Autoware仿真等技术交流群;

自动驾驶开发:自动驾驶开发、ROS等技术交流群;

其它方向:自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群;

扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)D

a33d6f3f931b200cf577a26075050df0.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

245f1b5f120033371d7dda9b44cd092c.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值