[CVPR-24] Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion

zzl_1998

于 2024-08-31 20:48:55 发布

阅读量647

点赞数 16

文章标签： 3d 风格化 4D风格化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40731332/article/details/141754902

版权

[pdf | code | proj]

任务：4D场景风格化
固定view（相机视角），生成时序视频，使得4D场景可以被多组时序视频表示：）编辑第一帧，将编辑后的第一帧作为anchor view，生成其他视角的第一帧；2）使用时序-空间性一致方法编辑其他帧。

方法

Anchor-Aware IP2P for Consistent Batched Generation

存在问题：多帧风格化的时序一致性问题；
解决方案：引入共享关键帧。受Tune-a-Video启发，将IP2P中的self-atten替换为cross-atten，在cross-atten中和风格化的关键帧（anchor view）做交互。同时，不同Batch共享相同的关键帧。

Optical Flow-Guided Sliding Window Method for Pseudo-View Editing

存在问题：多帧风格化的时序一致性问题
解决方案：受ViCA-NeRF启发，在它基础上引入光流做warp。1）选取关键帧（anchor view），对关键帧进行风格化；2）通过原视频计算光流，将风格化后的关键帧warp到其他帧，将其他帧与warp后的风格化关键帧融合；3）使用Anchor-Aware IP2P风格化。

Pseudo-View Propagation Based on Warping

存在问题：空间一致性问题
解决方案：
- 编辑pseudo-key view的第一帧，以它作为Anchor-aware IP2P的anchor view，风格化其他view的一帧；
- 对于时间t和视角v下的某帧(v, t)，通过光流warp (v, t-1)，通过深度和相机视角warp相同时间t和不同视角下的某帧，最终取均值得到待Anchor-Aware IP2P风格化。

Overall Editing Pipeline

通过上述方法迭代地多次生成风格化数据（Instrauct NeRF2NeRF），基于该数据训练NeRF。
一张卡训练NeRF，另一张卡生成风格化数据；
受HiFA启发，随训练时间增加，逐步减少采样时间t；
整个训练选取20个视角，并可在1小时内完成训练。

实验

对比实验

数据集：单目场景（DyCheck、HyperNeRF）；2）多目场景：DyNeRF/N3DV；
Baselines：IN2N-4D

消融实验

IN2N-4D：将IN2N应用在4D数据集上；
Video Editing：FateZero对视频帧做编辑；
Anchor-Aware IP2P w/o Optical-Flow：去除光流
One-time Pseudo-View Progation：

关注

16
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
[CVPR-24] Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion

任务：4D场景风格化固定view（相机视角），生成时序视频，使得4D场景可以被多组时序视频表示：）编辑第一帧，将编辑后的第一帧作为anchor view，生成其他视角的第一帧；2）使用时序-空间性一致方法编辑其他帧。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。