什么年代了还在用Nerf/Gaussian?视频扩散模型通向生成式新视点渲染

3eb1987fb84a6d0865e202a2b3000688.gif

©PaperWeekly 原创 · 作者 | 朱智宇

单位 | 香港城市大学博士

研究方向 | 计算机视觉

fd2fdb719d50c750fee70e57e0dd97ac.png

论文标题:

NVS-Solver: Video Diffusion Model as Zero-Shot Novel View Synthesizer

论文链接:

https://arxiv.org/abs/2405.15364

Github链接:

https://github.com/ZHU-Zhiyu/NVS_Solver

cc1a88d2c45eab256ef29045403ddf54.png

研究目的与结果展示

通过利用预训练的大型视频扩散模型的强大生成能力,我们提出了 NVS-Solver,这是一种新的视角合成(NVS)范式,它在操作时无需训练。NVS-Solver 能够根据给定的视图自适应地调节扩散采样过程,从而从静态场景的单一或多个视图,或动态场景的单目视频中创造出令人瞩目的视觉体验。

具体而言,基于我们的理论建模,我们通过迭代调节得分函数,并用变形的输入视图表示给定场景先验,以控制视频扩散过程。此外,通过理论上探索估计误差的边界,我们根据视图姿态和扩散步骤的数量以自适应的方式进行调节。在静态和动态场景上的广泛评估证实了我们的 NVS-Solver 在定量和定性上都显著优于现有的最先进方法。

接下来我们首先展示,不同环境下的 NVS 渲染结果。首先为基于单图(single-view)的新视点合成。(请关注下图水面的非朗博反射)

ae38e7b542070df5c6d586cd801210dc.gif

69cf43a51a765b5e495925f89349bd9e.gif

d6fcf755e6829f114c1733b3af711b82.gif

2c8d95b4c7232d6c7e9721c14518b718.gif

8d89c9c10d60722d93e785e4dc88b530.gif

同时对于 monocular video,NVS-Solver 也可以生成惊艳的新视点渲染效果。

4de772c20340cea72845d8755a00d066.gif

cc953a333d898fbb9261b993cf2f1280.gif

b50dc7b8e13cf91a2a298ab7a5c2d919.gif

b52dd0c70f1f60aa4660065ed1ac3a4b.gif

966e3ae99c9c96866e21e5ba38a615e6.gif

cf09348f6a2b6ab40d12e23683f6c422.gif

本文贡献主要聚焦于以下几个方面:

  1. 我们提出了一种利用预训练的视频扩散模型的无需训练的新视角合成范式;

  2. 我们从理论上构建了自适应利用给定场景信息以控制视频扩散过程的方法;

  3. 我们展示了我们的范式在各种场景下显著的性能表现。

c0d7ff563becfe7c37c15982d1f29576.png

方法

2.1基础知识

我们首先快速讲解一下关于 diffusion 的基础知识(详情可见 song yang 大神的一系列论文,与知乎的各路讲解)。

diffusion model 前向为如下公式,其中 为 drift 与 diffusion 系数

18e7cafd21cb96da2fd7994173b56452.png

反向过程如下

4e214dad53120973adb80b0353546463.png

使用可学习的 score function 来估计数据梯度我们可以得到

6674b578350d6477eb8a8253302d0d6b.png

由于当前性能比较突出的 diffusion model 为 stability AI 推出的 SVD,我们基于其 variance exploding(VE)的特性,得到以下 reverse process 的 ODE formulation。并且我们接下来的分析将基于以下 formulation。

7d25c776eb7f420fd2aafdcf546749b2.png

2.2 调制NVS导向的Diffusion Score Function

针对 video diffusion,我们分解每一帧(其中 表示 diffusion 的 step, 表示某一帧的 pose)的 diffusion 过程如下

c425031eba3ff706903b107a4c55fe3b.png

其中 为网络从 noised latent 中得到的对某一帧 的期望,是 score function 中可学习的部分,也是我们接下来建模的关键。OK,得出 diffusion 过程关于不同 pose(也就是 frame)的 formulation 之后,我们再来看下,如何借助已知 view 的信息来辅助修正 score function。这里我们借助到 intensity function 的泰勒展开来关联 target view 和 given views 。

4d570536a8e294cad5223fc95a981f11.png

其中表示 intensity function,代表不同 pose 下观察空间某点的亮度值。由于不同 pose 下同一空间点在 pixel 空间的投影位置不同,我们利用如下 warp function 可以的到已知 view  在下的投影。其中 为相机参数矩阵, 代表深度值, 为已知像素坐标。

5438e598f5281729d9673f6408568015.png

但是真实深度 往往不好获得,我们于是再次展开 warp function,得到利用估计深度的如下表示:

91ee24ea3c94bd70942e973791426b17.png

其中估计项,为对应误差项。在得到 warp 估计项后 我们开始进行 score function 的调制,特指其可学习部分 Eq.(6)的 或者 Eq.(7)的。我们将某个 view 的期望表示为两个 terms 组合,其中 为组合权重。

24109577e27e8f642d04b47b1173d8bf.png

能够非常简单地得到:

87b0fd85cf76ee1e16f9185fa6504e25.png

根据如何将 416bc4ab4243b2663894e7750b76dc29.png 的信息注入到 noise latent,我们提出两种 NVS-Solver 的变体:

NVS-Solver(GDS)直接替代到 Eq.(7)中进行 diffusion

7d50b3a0b6a5e78f87b75f3e50528913.png

NVS-Solver(Post)后验采样,利用梯度使用 4fad6384543456b2fda0bcd8b95d52c8.png 的信息

395cc325cd10089dc05309cdca4fab2d.png

至此,我们初步完成了 NVS-Solver 的框架,但是其中还有一个问题亟待解决就是 的确定。

2.3 确定 

我们通过 minimize 整个系统的误差来确定 的解析式,这里我们假定 为 optimal 的 value,这里我们可以得到误差的上限为如下表达式

419932702baa92fecea606c7365ed23e.png

由于具体的误差比较难求,我们退而求其次,一个比较好的 策略应该有尽量小的误差期望。

ac5679bb9aeef1cc35927f0ae15a8562.png

其中,最后一项为正则化项防止误差 overfitting 到我们 empirically estimated 误差期望上面。接着我们继续分析误差项 和 的特性。对于 diffusion 误差项 ,相关工作证实在噪声相对较大时,score function 会有比较剧烈的变化。同时在高噪声区域,网络也很难直接预测高质量的图像(当然我们暂时不讨论 recertified flow 和 consistency model 这类)。

所以我们认为误差期望是与噪声强度成正比的。同时对于 intensity 函数截断误差 ,其与 相同,如公式 10 所示。在忽略高阶项后,其中变量只有 (其中 对于某一场景是固定的)。这样我们假设 的期望正比于 。

221f6e8a1d9a5aff077d6c700624de90.png

根据我们上面的误差分析和实验验证,误差项 和 有如上特性。我们最后可以得到 的表达式:

245683eeb161bb29a719819a3658a8ae.png

其中 为比例系数,则其闭式解为:

2e5c6859b783a01a75718fee19bf2308.png

e2bb4daee12ce58aa70404f0c653cd11.png

消融实验

这里我们进行消融实验,可以看到所提出的方案确实可以减小 warp 的误差第一二四场景( in Eq.10)和非朗博反射体现在 intensity 的展开项的第三场景( in Eq.10)(更多的对比试验请见论文)。

b1e4aaf67ba5ccd7e1e3c37ab3e03d2d.png

更多阅读

c4bf6d40c30c52f31fadecb72332074a.png

36d86dc3db7ad543178eb087ae353632.png

3b31777075db81454cbdf864b8b88873.png

f09a8c36a283e4769c16867c115a30a9.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

db172fab55c5c1b5e6fd408e8cee3ae3.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

6325e383ae39e6c89b2eb34183b3af40.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值