3D场景视频生成技术调研_视频生成调研 csdn-CSDN博客

本文链接：https://blog.csdn.net/anshijie111/article/details/145959280

WonderJourney(Stanford University, Google Research)
论文：https://arxiv.org/pdf/2312.03884
代码：https://kovenyu.com/WonderJourney/

WonderWorld(Stanford University, MIT)
论文：https://arxiv.org/pdf/2406.09394
代码：https://kovenyu.com/WonderWorld/

Wonderland(Stanford University, MIT)
论文：https://arxiv.org/abs/2412.12091
代码：https://snap-research.github.io/wonderland/

概要

随着LLM、VLM、Diffusion模型、深度估计等技术的进步，3D场景视频的生成可能也是下一个热门方向，并在虚拟现实（VR）、增强现实（AR）和娱乐领域具有广泛的应用前景。本文主要介绍Stanford团队的Wonder系列3D场景漫游视频生成技术。

技术方案

WonderJourney

该方法无需任何训练，给定文本或单图均可，通过text2image或者caption得到图像-文本对，将文本输入LLM生成Next scene description，同时用MIDAS v3.1预测单目深度，根据深度渲染出新视角，输入Next scene description进行图像和深度补全，并将补全结果输入VLM判断场景生成是否有合理.
请添加图片描述
新视图生成流程如下，需要加入Depth Refinement，通过SAM对像素分组 ${seg_j}^N_{j=1}$ ，每个片段中对边缘执行中值滤波。

其他技术点：Stable Diffusion inpainting model，被遮挡深度后移，VLM判断“Is there any Xt in this image”

WonderWorld

本文方法第一个实现用户以低延迟交互式创建多样化、连通的场景，并引入了FLAGS表示法，用于快速场景生成，以及从单个视角生成场景。进一步引入深度引导扩散模型来减轻几何畸变。
请添加图片描述
**Fast LAyered Gaussian Surfels (FLAGS)**将每个场景分为景、背景和天空，每一层由面元集合表示，每个面元是一个2DGS盘(位置p、方向四元数q、xy轴长s、不透明度o和颜色c参数构成)。方差计算和渲染原理同3DGS，只移除了z轴和球谐颜色。Geometry-based initialization根据深度执行pixel-aligned生成，每个像素点对应一个gaussian盘，c初始化为像素颜色，gs盘位置p由位姿、内参和深度计算得到，GS球的旋转矩阵 $Q = [Q_x, Q_y, Q_z]$ ，可以从估计像素法向量 $n_cam$ ，其中 $u=[0,1,0]^T$ 表示单位向上向量， $n=R^{-1}n_{cam}$ 表示世界坐标系下像素法向量， $n_{cam}$ 表示相机坐标系下法向量。
请添加图片描述

尺度根据Nyquist采样理论计算如下，不透明度opacity=0.1。优化过程则从后向前微调，先训练天空，再训练背景，最后训练前景，执行100次Adam优化，且无需密集化操作。

Guided Depth Diffusion采用training-free的latent depth diffusion model，输入图像+引导深度+mask经过多次去噪外插出新视角的深度。
请添加图片描述
？
执行细节：Stable Diffusion Inpaint model补全、OneFormer分割天空和前景、Marigold Normal估计像素法向量、Marigold Depth作为深度扩散模型、

Wonderland

为了解决多视角数据的匮乏和漫长3D重建优化过程，本文提出了一个相机引导的可控视频生成模型，设计双分支结构将单图根据相机参数生成一段视频，并提出LaLRM的前馈网络直接从视频隐特征预测3DGS参数。
请添加图片描述
Camera-Guided Video Latent Generation首先采用3D-VAE对视频进行时间和空间压缩，得到视频隐特征 $z ∈ R^{t×h×w×c}$ 。利用Transformer扩散模型进行视频生成。为了加入相机轨迹控制条件，采用更精细的像素级位置表示，即Plucker embedding的相机表示 $p_{u,v} = (t × d_{u,v}, d_{u,v}) ∈ R^6$ ，其中 $d_{u,v}=norm(RK^{-1}[u,v,1]^T+t)$ 。
Dual Branch Camera Guidance为了保证加入相机条件控制后预训练模型效果不变差，提出了双分支的相机引导模型，类似于ControlNet和LoRA，不改变原始权重即可达到优秀的扩展性。如图所示，相机参数经过两个轻量化encoder得到 $o_{ctrl}$ 和 $o_{lora}$ (均使用3DConv压缩时空)，前者输入ControlNet分支，在每个block之后通过zero convolution注入到主分支，后者通过concat注入到主分支。通过这种方式，冻结主分支，只微调ControlNet分之和LoRA参数，即可实现精确的相机引导控制视频生成效果。
Latent Large Reconstruction Model(LaLRM) 使用前馈网络直接从视频的隐特征中预测12维的3DGS参数，输入video latent和相机Plucker embedding，前者2D分块化处理，后者采用3DConv进行时空压缩到与video latent一致的维度上，再进行两者的concat，经过Transformer和3D DeConv模块解码出12维的3DGS参数。
Progressive Training Strategy为了保证LaLRM模型的3D一致性性和泛化性，需要在大量in-the-wild数据集上训练。因此，本文采用渐进式训练策略。第一阶段，在benchmark数据集上用低分辨率视频进行训练，采用步长s采样T帧可见帧集合V，剩余不可见帧维U，V和U用于重建3DGS监督LaLRM前馈网络预测的3DGS系数。第二阶段，合并benchmark数据与相机引导模型生成的域外数据，在高分辨率上训练，以提升LaLRM的泛化性和高保真性。

实验细节视频生成模型采用CogVideoX-5B-I2V，3D VAE以spatial ratios $r_t = 4$ and $r_s = 8$ 压缩时空得到13×60×90隐特征，ControlNet用到视频模型前21个Transformer模块作为初始化，LoRA最小维度256， LaLRM采用24个Transformer构建，先在49 × 240 × 360分辨率上训练，再在49 × 480 × 720分辨率上训练，监督时48帧全用，随机采样24帧作为可见帧，剩下24作为不可见帧。

实验结果

WonderJourney结果 可以生成各种风格的3D场景视频，且优于InfiniteNature-Zero和SceneScape，但在实测中，生成的视频前后景边缘artifact较多
请添加图片描述在这里插入图片描述

WonderWorld结果 基于WonderJourney稍微提升了边缘处理效果，引入3DGS后渲染质量有一定提升，但深度估计的几何一致性仍然较差(如墙面与地面不垂直)
在这里插入图片描述

Wonderland结果. 相机控制的视频生成模型效果优于MotionCtrl、VD3D和ViewCrafter模型，重建效果优于ViewCrafter和ZeroNVS，视觉效果上也比WonderJourney好，后者有较多的边缘artifact。
请添加图片描述

请添加图片描述

小结

3D场景视频生成技术逐步趋于成熟。传统的深度估计由于几何一致性较差(可能是训练数据内参不一致导致反投影出现墙面倾斜)，逐步被3DGS前馈网络替代，可以缓解反投影带来几何一致性问题；传统的上一帧投影+补全模型逐步被视频生成模型所替代，流程上更简洁，内存占用上也有减少。新技术的应用会逐步解决3D场景重建和3D视频生成的挑战