3D场景视频生成技术调研

WonderJourney(Stanford University, Google Research)
论文:https://arxiv.org/pdf/2312.03884
代码:https://kovenyu.com/WonderJourney/

WonderWorld(Stanford University, MIT)
论文:https://arxiv.org/pdf/2406.09394
代码:https://kovenyu.com/WonderWorld/

Wonderland(Stanford University, MIT)
论文:https://arxiv.org/abs/2412.12091
代码:https://snap-research.github.io/wonderland/

概要

随着LLM、VLM、Diffusion模型、深度估计等技术的进步,3D场景视频的生成可能也是下一个热门方向,并在虚拟现实(VR)、增强现实(AR)和娱乐领域具有广泛的应用前景。本文主要介绍Stanford团队的Wonder系列3D场景漫游视频生成技术。

技术方案

WonderJourney

该方法无需任何训练,给定文本或单图均可,通过text2image或者caption得到图像-文本对,将文本输入LLM生成Next scene description,同时用MIDAS v3.1预测单目深度,根据深度渲染出新视角,输入Next scene description进行图像和深度补全,并将补全结果输入VLM判断场景生成是否有合理.
请添加图片描述
新视图生成流程如下,需要加入Depth Refinement,通过SAM对像素分组 s e g j j = 1 N {seg_j}^N_{j=1} segjj=1N,每个片段中对边缘执行中值滤波。
请添加图片描述
请添加图片描述
其他技术点:Stable Diffusion inpainting model,被遮挡深度后移,VLM判断“Is there any Xt in this image”

WonderWorld

本文方法第一个实现用户以低延迟交互式创建多样化、连通的场景,并引入了FLAGS表示法,用于快速场景生成,以及从单个视角生成场景。进一步引入深度引导扩散模型来减轻几何畸变。
请添加图片描述
**Fast LAyered Gaussian Surfels (FLAGS)**将每个场景分为景、背景和天空,每一层由面元集合表示,每个面元是一个2DGS盘(位置p、方向四元数q、xy轴长s、不透明度o和颜色c参数构成)。方差计算和渲染原理同3DGS,只移除了z轴和球谐颜色。Geometry-based initialization根据深度执行pixel-aligned生成,每个像素点对应一个gaussian盘,c初始化为像素颜色,gs盘位置p由位姿、内参和深度计算得到,GS球的旋转矩阵 Q = [ Q x , Q y , Q z ] Q = [Q_x, Q_y, Q_z] Q=[Qx,Qy,Qz],可以从估计像素法向量 n c a m n_cam ncam,其中 u = [ 0 , 1 , 0 ] T u=[0,1,0]^T u=[0,1,0]T表示单位向上向量, n = R − 1 n c a m n=R^{-1}n_{cam} n=R1ncam表示世界坐标系下像素法向量, n c a m n_{cam} ncam表示相机坐标系下法向量。
请添加图片描述
请添加图片描述
请添加图片描述
尺度根据Nyquist采样理论计算如下,不透明度opacity=0.1。优化过程则从后向前微调,先训练天空,再训练背景,最后训练前景,执行100次Adam优化,且无需密集化操作。
请添加图片描述

Guided Depth Diffusion采用training-free的latent depth diffusion model,输入图像+引导深度+mask经过多次去噪外插出新视角的深度。
请添加图片描述
请添加图片描述
执行细节:Stable Diffusion Inpaint model补全、OneFormer分割天空和前景、Marigold Normal估计像素法向量、Marigold Depth作为深度扩散模型、

Wonderland

为了解决多视角数据的匮乏和漫长3D重建优化过程,本文提出了一个相机引导的可控视频生成模型,设计双分支结构将单图根据相机参数生成一段视频,并提出LaLRM的前馈网络直接从视频隐特征预测3DGS参数。
请添加图片描述
Camera-Guided Video Latent Generation首先采用3D-VAE对视频进行时间和空间压缩,得到视频隐特征 z ∈ R t × h × w × c z ∈ R^{t×h×w×c} zRt×h×w×c。利用Transformer扩散模型进行视频生成。为了加入相机轨迹控制条件,采用更精细的像素级位置表示,即Plucker embedding的相机表示 p u , v = ( t × d u , v , d u , v ) ∈ R 6 p_{u,v} = (t × d_{u,v}, d_{u,v}) ∈ R^6 pu,v=(t×du,v,du,v)R6,其中 d u , v = n o r m ( R K − 1 [ u , v , 1 ] T + t ) d_{u,v}=norm(RK^{-1}[u,v,1]^T+t) du,v=norm(RK1[u,v,1]T+t)
Dual Branch Camera Guidance为了保证加入相机条件控制后预训练模型效果不变差,提出了双分支的相机引导模型,类似于ControlNet和LoRA,不改变原始权重即可达到优秀的扩展性。如图所示,相机参数经过两个轻量化encoder得到 o c t r l o_{ctrl} octrl o l o r a o_{lora} olora(均使用3DConv压缩时空),前者输入ControlNet分支,在每个block之后通过zero convolution注入到主分支,后者通过concat注入到主分支。通过这种方式,冻结主分支,只微调ControlNet分之和LoRA参数,即可实现精确的相机引导控制视频生成效果。
Latent Large Reconstruction Model(LaLRM) 使用前馈网络直接从视频的隐特征中预测12维的3DGS参数,输入video latent和相机Plucker embedding,前者2D分块化处理,后者采用3DConv进行时空压缩到与video latent一致的维度上,再进行两者的concat,经过Transformer和3D DeConv模块解码出12维的3DGS参数。
Progressive Training Strategy为了保证LaLRM模型的3D一致性性和泛化性,需要在大量in-the-wild数据集上训练。因此,本文采用渐进式训练策略。第一阶段,在benchmark数据集上用低分辨率视频进行训练,采用步长s采样T帧可见帧集合V,剩余不可见帧维U,V和U用于重建3DGS监督LaLRM前馈网络预测的3DGS系数。第二阶段,合并benchmark数据与相机引导模型生成的域外数据,在高分辨率上训练,以提升LaLRM的泛化性和高保真性。

实验细节视频生成模型采用CogVideoX-5B-I2V,3D VAE以spatial ratios r t = 4 r_t = 4 rt=4 and r s = 8 r_s = 8 rs=8压缩时空得到13×60×90隐特征,ControlNet用到视频模型前21个Transformer模块作为初始化,LoRA最小维度256, LaLRM采用24个Transformer构建,先在49 × 240 × 360分辨率上训练,再在49 × 480 × 720分辨率上训练,监督时48帧全用,随机采样24帧作为可见帧,剩下24作为不可见帧。

实验结果

WonderJourney结果 可以生成各种风格的3D场景视频,且优于InfiniteNature-Zero和SceneScape,但在实测中,生成的视频前后景边缘artifact较多
请添加图片描述在这里插入图片描述

WonderWorld结果 基于WonderJourney稍微提升了边缘处理效果,引入3DGS后渲染质量有一定提升,但深度估计的几何一致性仍然较差(如墙面与地面不垂直)
在这里插入图片描述

Wonderland结果. 相机控制的视频生成模型效果优于MotionCtrl、VD3D和ViewCrafter模型,重建效果优于ViewCrafter和ZeroNVS,视觉效果上也比WonderJourney好,后者有较多的边缘artifact。
请添加图片描述
请添加图片描述
请添加图片描述

请添加图片描述
请添加图片描述

小结

3D场景视频生成技术逐步趋于成熟。传统的深度估计由于几何一致性较差(可能是训练数据内参不一致导致反投影出现墙面倾斜),逐步被3DGS前馈网络替代,可以缓解反投影带来几何一致性问题;传统的上一帧投影+补全模型逐步被视频生成模型所替代,流程上更简洁,内存占用上也有减少。新技术的应用会逐步解决3D场景重建和3D视频生成的挑战

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值