点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
论文作者 | Yuan Shen
编辑 | 自动驾驶之心
如何提升3D模型细节
结合图像和3D数据进行监督,已经实现生成式3D模型,其速度快,生成结果多样化。这些3D模型仍然缺乏与最先进的图像或视频生成模型相匹配的细节和准确性。主要的挑战有:
3D表示的选择。虽然基于网格的模型最为流行,因为它们不需要对(生成的)形状有先验知识,但它们的规则结构(例如,体素网格、三平面)限制了生成结果的保真度。
获取大量高质量且多样的3D数据仍然困难。尽管最先进的图像和视频模型是基于数十亿的训练样本进行训练的,但最全面的3D训练数据集至多只包含几百万个对象
SuperGaussian通过一种简单、模块化和通用的方法解决了这一挑战,该方法可以集成到现有的工作流程中。从任何通用的粗糙3D表示开始,我们的目标是在不需要类别特定训练的情况下“上采样”粗糙的3D输入模型。任何3D表示都可以从多个视点沿平滑轨迹渲染,并映射到中间的通用视频表示。因此,可以重新利用现有的视频模型来执行3D上采样或超分辨率任务。这些模型在大量视频数据上进行了训练,因此提供了可以在一般场景中应用的强大先验知识。关键挑战是确保3D一致性;虽然视频模型在时间上是平滑的,但不保证在3D上是一致的。需要注意的是,该方法使用视频,而不是像那些使用图像先验并独立处理每个帧的方法,这显著改善了时间上的初始一致性。
图1显示了提出的基于视频的3D超分辨率框架可以成功适用于多种粗糙3D模式的上采样。SuperGaussian的步骤如下:
从给定的粗糙3D输入中采样视点轨迹并渲染视频
使用预训练的视频上采样器上采样渲染的视频,该上采样器可以选择性地进行微调以处理输入模式的伪影。
对于3D整合,我们采用高斯泼溅作为我们的输出表示。作为一种以对象为中心的表示,高斯泼溅非常适合编码单个对象,并能够捕捉局部细节。高斯泼溅还在模型的简单性、保真度和渲染效率之间取得了良好的平衡。
(大拇指往上滑,点击最上方的卡片关注我,整个操作只会花你 1.328 秒,然后带走未来、所有、免费的干货,万一有内容对您有帮助呢~)
具体方法
整体框架
给定一个粗糙的3D表示,目标是通过超分辨率提高3D表示的保真度并捕捉更多的局部细节。基于3D内容可以被表示为从多个视点描绘3D场景的视频这一观察,主要前提是利用现有的视频上采样先验来进行3D上采样。正如图2所示,SuperGaussian包括两个主要步骤:
对从粗糙3D表示渲染出的视频进行上采样,以提高分辨率并获得清晰的结果。
进行3D重建,以生成一致的3D表示。
除了利用在大量视频数据上训练的视频上采样器的先验外,还对特定领域的低分辨率视频(即,从低分辨率3D表示渲染出的视频)进行微调。因此,SuperGaussian能够处理由各种3D捕获和生成过程引起的复杂退化问题。需要注意的是,框架中的每个组件都是高度模块化的,可以轻松替换为其他最先进的视频方法。
问题表述
SuperGaussian可以处理各种静态场景的粗糙3D表示,这些表示记为 ψ。例如,ψ可以是高斯泼溅、NeRF、低多边形网格、低质量捕获的视频,或使用最近的文本到3D方法生成的3D对象。任何这样的3D表示ψ都可以从多个视点渲染以生成视频,这是一种常见的中间表示。在实践中,本文从条平滑轨迹渲染每个3D输入,并生成一系列RGB图像。这里,下标表示每条轨迹上的视点或姿势,上标表示轨迹ID。我们假设相邻帧之间的相机运动足够小,以使标准视频上采样器可以利用足够的时间对齐。在进行一系列视频上采样后,输出生成高保真度的3D表示ψ,形式为高斯泼溅(注意,在我们的设置中,相机视图是已知的,不需要估计)。这一最终的3D优化生成了一个真正的3D输出,并在此过程中消除了改进视频表示中的任何剩余时间不一致性。
初始上采样
首先,在目标场景附近的空白区域手动采样轨迹。给定轨迹,描述每个单独视频的相机路径,视频上采样器输出一个具有上采样的轨迹(在实验中,)。在数学上:
其中, 表示视频上采样器, 是上采样后的视频。假设初始渲染分辨率应足够高,以使渲染保真度受限于粗糙的3D表示级别。
本框架可以轻松集成任何最先进的预训练视频上采样器。在本文中使用VideoGigaGAN,这是一种生成视频上采样器。在处理具有严重域偏差的输入表示时,需要额外的微调。例如,对于放大后出现条纹或斑点伪影的渲染,来自高斯泼溅的渲染与最先进的视频上采样器中部署的标准增强处理不同。因此,为了微调视频上采样器,需要一组低分辨率和高分辨率视频对,描述我们希望建模的特定退化。为此,使用多视角数据集MVImgNet,该数据集描绘了各种3D对象和场景。首先,将数据集中原始图像双线性下采样8倍,即到 像素分辨率,以获得一组低分辨率图像。然后,将低分辨率高斯泼溅拟合到这些图像上。根据数据集提供的原始相机轨迹渲染优化后的低分辨率高斯泼溅作为视频上采样器的输入。作为目标真实值,使用数据集中的原始视频,并将其调整为输入分辨率的4倍。使用Charbonnier回归损失进行微调,该损失对离群像素具有鲁棒性,同时使用LPIPS损失进行感知层面的改进,并使用GAN损失进行生成行为的改进。
通过高斯泼溅进行3D优化
使用官方的高斯泼溅代码库来执行3D优化,将高斯拟合到上采样后的视频中。具体在实验中,按照标准的高斯泼溅优化过程进行,运行2000步。需要注意的是,由于拥有完美的相机信息,直接将其提供给优化过程,而不是通过结构化运动(SfM)进行估计。损失函数是按照原始论文的做法,在优化高斯时使用L1和LSSIM损失。
采用3D高斯泼溅的优点在于它是一种以对象为中心的表示,并且在训练和渲染方面效率很高。此外,它能够很好地捕捉上采样帧的视图依赖效果。然而,SuperGaussian也可以轻松与其他类型的3D表示(例如NeRF)集成,在实验中使用这些表示进行优化。
实验效果
总结一下
SuperGaussian是一种简单、模块化和通用的框架,通过一个上采样流程重新利用现有的视频模型来提高3D模型的保真度,填充几何和纹理细节。不仅可以处理多种输入模式,还无需类别特定的训练。由于其简单性和模块化特性,SuperGaussian可以轻松整合到大多数3D内容创作工作流程中。
局限性:
由于使用预训练的视频模型,无法改进它们的泛化能力和推理速度。虽然无法通过训练合成3D数据来解决这个问题,但我们期待基础视频模型的不断改进,这些改进可以轻松用于我们的模块化设置中。
无法从输入中缺失/遮挡的部分或不足的视点覆盖中恢复。希望在本框架中结合生成式补全方法,使用数据先验(例如3D先验或视频先验)来补全和超分辨结果,但这可能会导致我们通用性的丧失。
参考
[1] SuperGaussian: Repurposing Video Models for 3D Super Resolution
投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!
① 全网独家视频课程
BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
网页端官网:www.zdjszx.com② 国内首个自动驾驶学习社区
国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频
③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
④【自动驾驶之心】全平台矩阵