什么年代了还在用Nerf/Gaussian?视频扩散模型通向生成式新视点渲染

3eb1987fb84a6d0865e202a2b3000688.gif

©PaperWeekly 原创 · 作者 | 朱智宇

单位 | 香港城市大学博士

研究方向 | 计算机视觉

fd2fdb719d50c750fee70e57e0dd97ac.png

论文标题:

NVS-Solver: Video Diffusion Model as Zero-Shot Novel View Synthesizer

论文链接:

https://arxiv.org/abs/2405.15364

Github链接:

https://github.com/ZHU-Zhiyu/NVS_Solver

cc1a88d2c45eab256ef29045403ddf54.png

研究目的与结果展示

通过利用预训练的大型视频扩散模型的强大生成能力,我们提出了 NVS-Solver,这是一种新的视角合成(NVS)范式,它在操作时无需训练。NVS-Solver 能够根据给定的视图自适应地调节扩散采样过程,从而从静态场景的单一或多个视图,或动态场景的单目视频中创造出令人瞩目的视觉体验。

具体而言,基于我们的理论建模,我们通过迭代调节得分函数,并用变形的输入视图表示给定场景先验,以控制视频扩散过程。此外,通过理论上探索估计误差的边界,我们根据视图姿态和扩散步骤的数量以自适应的方式进行调节。在静态和动态场景上的广泛评估证实了我们的 NVS-Solver 在定量和定性上都显著优于现有的最先进方法。

接下来我们首先展示,不同环境下的 NVS 渲染结果。首先为基于单图(single-view)的新视点合成。(请关注下图水面的非朗博反射)

ae38e7b542070df5c6d586cd801210dc.gif

69cf43a51a765b5e495925f89349bd9e.gif

d6fcf755e6829f114c1733b3af711b82.gif

2c8d95b4c7232d6c7e9721c14518b718.gif

8d89c9c10d60722d93e785e4dc88b530.gif

同时对于 monocular video,NVS-Solver 也可以生成惊艳的新视点渲染效果。

4de772c20340cea72845d8755a00d066.gif

cc953a333d898fbb9261b993cf2f1280.gif

b50dc7b8e13cf91a2a298ab7a5c2d919.gif

b52dd0c70f1f60aa4660065ed1ac3a4b.gif

966e3ae99c9c96866e21e5ba38a615e6.gif

cf09348f6a2b6ab40d12e23683f6c422.gif

本文贡献主要聚焦于以下几个方面:

  1. 我们提出了一种利用预训练的视频扩散模型的无需训练的新视角合成范式;

  2. 我们从理论上构建了自适应利用给定场景信息以控制视频扩散过程的方法;

  3. 我们展示了我们的范式在各种场景下显著的性能表现。

c0d7ff563becfe7c37c15982d1f29576.png

方法

2.1基础知识

我们首先快速讲解一下关于 diffusion 的基础知识(详情可见 song yang 大神的一系列论文,与知乎的各路讲解)。

diffusion model 前向为如下公式,其中 为 drift 与 diffusion 系数

18e7cafd21cb96da2fd7994173b56452.png

反向过程如下

4e214dad53120973adb80b0353546463.png

使用可学习的 score function 来估计数据梯度我们可以得到

6674b578350d6477eb8a8253302d0d6b.png

由于当前性能比较突出的 diffusion model 为 stability AI 推出的 SVD,我们基于其 variance exploding(VE)的特性,得到以下 reverse process 的 ODE formulation。并且我们接下来的分析将基于以下 formulation。

7d25c776eb7f420fd2aafdcf546749b2.png

2.2 调制NVS导向的Diffusion Score Function

针对 video diffusion,我们分解每一帧(其中 表示 diffusion 的 step, 表示某一帧的 pose)的 diffusion 过程如下

c425031eba3ff706903b107a4c55fe3b.png

其中 为网络从 noised latent 中得到的对某一帧 的期望,是 score function 中可学习的部分,也是我们接下来建模的关键。OK,得出 diffusion 过程关于不同 pose(也就是 frame)的 formulation 之后,我们再来看下,如何借助已知 view 的信息来辅助修正 score function。这里我们借助到 intensity function 的泰勒展开来关联 target view 和 given views 。

4d570536a8e294cad5223fc95a981f11.png

其中表示 intensity function,代表不同 pose 下观察空间某点的亮度值。由于不同 pose 下同一空间点在 pixel 空间的投影位置不同,我们利用如下 warp function 可以的到已知 view  在下的投影。其中 为相机参数矩阵, 代表深度值, 为已知像素坐标。

5438e598f5281729d9673f6408568015.png

但是真实深度 往往不好获得,我们于是再次展开 warp function,得到利用估计深度的如下表示:

91ee24ea3c94bd70942e973791426b17.png

其中估计项,为对应误差项。在得到 warp 估计项后 我们开始进行 score function 的调制,特指其可学习部分 Eq.(6)的 或者 Eq.(7)的。我们将某个 view 的期望表示为两个 terms 组合,其中 为组合权重。

24109577e27e8f642d04b47b1173d8bf.png

能够非常简单地得到:

87b0fd85cf76ee1e16f9185fa6504e25.png

根据如何将 416bc4ab4243b2663894e7750b76dc29.png 的信息注入到 noise latent,我们提出两种 NVS-Solver 的变体:

NVS-Solver(GDS)直接替代到 Eq.(7)中进行 diffusion

7d50b3a0b6a5e78f87b75f3e50528913.png

NVS-Solver(Post)后验采样,利用梯度使用 4fad6384543456b2fda0bcd8b95d52c8.png 的信息

395cc325cd10089dc05309cdca4fab2d.png

至此,我们初步完成了 NVS-Solver 的框架,但是其中还有一个问题亟待解决就是 的确定。

2.3 确定 

我们通过 minimize 整个系统的误差来确定 的解析式,这里我们假定 为 optimal 的 value,这里我们可以得到误差的上限为如下表达式

419932702baa92fecea606c7365ed23e.png

由于具体的误差比较难求,我们退而求其次,一个比较好的 策略应该有尽量小的误差期望。

ac5679bb9aeef1cc35927f0ae15a8562.png

其中,最后一项为正则化项防止误差 overfitting 到我们 empirically estimated 误差期望上面。接着我们继续分析误差项 和 的特性。对于 diffusion 误差项 ,相关工作证实在噪声相对较大时,score function 会有比较剧烈的变化。同时在高噪声区域,网络也很难直接预测高质量的图像(当然我们暂时不讨论 recertified flow 和 consistency model 这类)。

所以我们认为误差期望是与噪声强度成正比的。同时对于 intensity 函数截断误差 ,其与 相同,如公式 10 所示。在忽略高阶项后,其中变量只有 (其中 对于某一场景是固定的)。这样我们假设 的期望正比于 。

221f6e8a1d9a5aff077d6c700624de90.png

根据我们上面的误差分析和实验验证,误差项 和 有如上特性。我们最后可以得到 的表达式:

245683eeb161bb29a719819a3658a8ae.png

其中 为比例系数,则其闭式解为:

2e5c6859b783a01a75718fee19bf2308.png

e2bb4daee12ce58aa70404f0c653cd11.png

消融实验

这里我们进行消融实验,可以看到所提出的方案确实可以减小 warp 的误差第一二四场景( in Eq.10)和非朗博反射体现在 intensity 的展开项的第三场景( in Eq.10)(更多的对比试验请见论文)。

b1e4aaf67ba5ccd7e1e3c37ab3e03d2d.png

更多阅读

c4bf6d40c30c52f31fadecb72332074a.png

36d86dc3db7ad543178eb087ae353632.png

3b31777075db81454cbdf864b8b88873.png

f09a8c36a283e4769c16867c115a30a9.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

db172fab55c5c1b5e6fd408e8cee3ae3.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

6325e383ae39e6c89b2eb34183b3af40.jpeg

内容概要:该题库专为研究生入学考试计算机组成原理科目设计,涵盖名校考研真题、经典教材课后习题、章节题库和模拟试题四大核心模块。名校考研真题精选多所知名高校的计算机组成原理科目及计算机联考真题,并提供详尽解析,帮助考生把握考研命题趋势与难度。经典教材课后习题包括白中英《计算机组成原理》(第5版)和唐朔飞《计算机组成原理》(第2版)的全部课后习题解答,这两部教材被众多名校列为考研指定参考书目。章节题库精选代表性考题,注重基础知识与重难点内容,帮助考生全面掌握考试大纲要求的知识点。模拟试题依据历年考研真题命题规律和热门考点,精心编制两套全真模拟试题,并附标准答案,帮助考生检验学习成果,评估应试能力。 适用人群:计划参加研究生入学考试并报考计算机组成原理科目的考生,尤其是需要系统复习和强化训练的学生。 使用场景及目标:①通过研读名校考研真题,考生可以准确把握考研命题趋势与难度,有效评估复习成效;②通过经典教材课后习题的练习,考生可以巩固基础知识,掌握解题技巧;③通过章节题库的系统练习,考生可以全面掌握考试大纲要求的各个知识点,为备考打下坚实基础;④通过模拟试题的测试,考生可以检验学习成果,评估应试能力,为正式考试做好充分准备。 其他说明:该题库不仅提供详细的题目解析,还涵盖了计算机组成原理的各个方面,包括计算机系统概述、数据表示与运算、存储器分层、指令系统、中央处理器、总线系统和输入输出系统等。考生在使用过程中应结合理论学习与实践操作,注重理解与应用,以提高应试能力和专业知识水平。
<think>好的,我现在需要回答用户关于扩散模型的问题。用户之前已经询问过三维重建模型,现在转而问扩散模型,可能是在之前的讨论中对扩散模型在三维重建中的应用产生了兴趣。因此,我需要确保回答不仅涵盖扩散模型的基础知识,还要适当关联到之前的上下文,比如它们在三维重建中的具体应用。 首先,我需要回忆扩散模型的基本概念。扩散模型是一种生成模型,灵感来自物理学中的扩散过程,通过逐步去噪数据来生成样本。用户可能想知道它的工作原理、数学基础、优势以及应用场景。我需要用中文解释清楚,同时保持结构清晰,分步骤说明。 接下来,我需要考虑用户可能的背景。用户可能具备一定的技术知识,因为之前的问题涉及三维重建的模型,但可能对扩散模型的具体细节不太熟悉。因此,解释需要深入浅出,避免过于专业的术语,必要时用比喻帮助理解。 然后,我要确保回答符合用户提供的系统级指令,比如使用正确的LaTeX格式,行内公式用$...$,独立公式用$$...$$并单独成段。同时,结构要清晰,分点列出核心思想、数学原理、训练过程、优势、应用和挑战。 在内容方面,我需要涵盖: 1. 核心思想:正向扩散(加噪)和反向扩散(去噪)的过程。 2. 数学原理:涉及的概率分布、损失函数,可能提到变分推断和马尔可夫链。 3. 训练过程:如何训练模型预测噪声。 4. 优势:如高质量生成、稳定训练等。 5. 应用领域:图像生成、三维重建(结合之前的问题)、音频处理等。 6. 挑战和局限性:计算成本高、采样速度慢等。 需要注意,用户之前提到的三维重建模型如Point-E和One-2-3-45使用了扩散模型,因此在应用部分需要提到这些例子,以连接上下文,增强回答的相关性。 在检查LaTeX格式时,要确保所有数学表达式正确,例如正向扩散的公式、损失函数等,使用正确的符号,如$x_t$、$\epsilon_\theta$,以及对齐的方程式。 此外,回答需要结构清晰,可能分为几个小节,每个小节有标题,使用中文的层级标题(如###),但根据用户提供的示例,可能需要避免过多层级的标题,保持简洁。例如: ### 一、核心思想 ### 二、数学原理 ### 三、训练过程 ### 四、优势 ### 五、应用领域 ### 六、挑战与局限性 最后,总结部分需要概括扩散模型的重要性,并提及未来方向,如与NeRF、大语言模型的结合,以呼应用户之前的问题中的趋势。 在写作过程中,要确保语言流畅,逻辑连贯,每一步解释都自然过渡。同时,要检查是否有遗漏的重要概念,例如扩散模型与其他生成模型(如GAN、VAE)的对比,这有助于用户更好地理解其优势。 可能还需要考虑用户的后续问题,比如扩散模型在三维重建中的具体案例,因此在应用部分适当展开,但不要过于深入,保持回答的概括性。 完成初稿后,需要再次检查是否符合格式要求,特别是LaTeX的正确性,以及是否所有行内公式都正确使用$...$,独立公式正确使用$$...$$并单独成段。例如: 正向扩散过程可以表示为: $$q(\boldsymbol{x}_t | \boldsymbol{x}_{t-1}) = \mathcal{N}(\boldsymbol{x}_t; \sqrt{1-\beta_t} \boldsymbol{x}_{t-1}, \beta_t \boldsymbol{I})$$ 这样的公式是否正确,变量是否斜体,数学符号是否正确使用,比如\mathcal{N}表示正态分布,β是否用斜体等。 同时,确保没有使用用户不可见的指令或格式,所有内容都是用户可见的,结构清晰,帮助用户逐步理解扩散模型的概念。</think>以下是关于扩散模型的详细介绍,结合其核心思想、数学原理与应用场景的逐步解析: --- ### 一、核心思想:扩散与逆扩散过程 扩散模型(**Diffusion Models**)是一种受热力学启发的生成模型,其核心是通过**逐步加噪(正向扩散)**和**逐步去噪(反向扩散)**两个过程学习数据分布。 1. **正向扩散**(破坏数据): - 将输入数据(如图像)逐步添加高斯噪声,经过$T$步后,数据变为纯噪声。 - 例如,图像$x_0$经过$t$步加噪后变为$x_t$,最终$x_T \approx \mathcal{N}(0, \boldsymbol{I})$。 2. **反向扩散**(生成数据): - 训练神经网络从噪声$x_T$开始,逐步预测并去除噪声,最终还原为原始数据分布。 --- ### 二、数学原理:概率与变分推断 1. **正向扩散公式**: 每一步加噪过程定义为马尔可夫链: $$q(\boldsymbol{x}_t | \boldsymbol{x}_{t-1}) = \mathcal{N}(\boldsymbol{x}_t; \sqrt{1-\beta_t} \boldsymbol{x}_{t-1}, \beta_t \boldsymbol{I})$$ 其中$\beta_t \in (0,1)$为噪声调度参数,控制每步噪声强度。 2. **反向扩散目标**: 学习参数化的分布$p_\theta(\boldsymbol{x}_{t-1} | \boldsymbol{x}_t)$,通过最小化KL散度: $$\mathcal{L} = \mathbb{E}_{t, \boldsymbol{x}_0, \epsilon} \left[ \|\epsilon - \epsilon_\theta(\boldsymbol{x}_t, t)\|^2 \right]$$ 其中$\epsilon_\theta$为神经网络,用于预测每一步的噪声$\epsilon$。 --- ### 三、训练过程:噪声预测 1. **输入**:随机采样时间步$t$,原始数据$\boldsymbol{x}_0$,噪声$\epsilon \sim \mathcal{N}(0, \boldsymbol{I})$。 2. **加噪**:生成中间状态$\boldsymbol{x}_t = \sqrt{\alpha_t} \boldsymbol{x}_0 + \sqrt{1-\alpha_t} \epsilon$($\alpha_t = \prod_{i=1}^t (1-\beta_i)$)。 3. **训练网络**:优化$\epsilon_\theta$以预测噪声$\epsilon$。 --- ### 四、优势:与其他生成模型的对比 | 特性 | 扩散模型 | GAN | VAE | |---------------------|-------------------|------------------|------------------| | **生成质量** | 高(细节丰富) | 高(但易模式崩溃)| 中等(模糊倾向) | | **训练稳定性** | 稳定 | 不稳定(需精细调参)| 稳定 | | **多样性** | 高 | 中等 | 中等 | --- ### 五、应用领域 1. **图像生成**: - 如Stable Diffusion、DALL·E 3,生成高分辨率图像。 2. **三维重建**: - **Point-E**:通过扩散模型从单图生成3D点云。 - **One-2-3-45**:扩散生成多视角深度图,融合为3D网格。 3. **音频与视频**: - 生成音乐、语音(如AudioLDM),视频插帧(如DiffusionVideo)。 --- ### 六、挑战与局限性 1. **计算成本高**:反向扩散需多次迭代(通常$T=1000$步),实时性差。 2. **采样速度慢**:相比GAN,生成耗时更长(需逐步去噪)。 3. **复杂场景建模**:对遮挡、透明物体的生成仍不完美。 --- ### 总结 扩散模型通过**物理启发的噪声迭代机制**,在生成任务中实现了高保真度和多样性,成为当前生成式AI的核心技术之一。其与三维重建(如Point-E)、大语言模型(如Stable Diffusion 3结合Transformer)的融合,正在推动多模态内容生成的突破,未来优化方向将聚焦于**加速采样**与**降低训练成本**。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值