[CVPR-24] Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion

[pdf | code | proj]

  • 任务:4D场景风格化
  • 固定view(相机视角),生成时序视频,使得4D场景可以被多组时序视频表示:)编辑第一帧,将编辑后的第一帧作为anchor view,生成其他视角的第一帧;2)使用时序-空间性一致方法编辑其他帧。

方法

Anchor-Aware IP2P for Consistent Batched Generation

  • 存在问题:多帧风格化的时序一致性问题;
  • 解决方案:引入共享关键帧。受Tune-a-Video启发,将IP2P中的self-atten替换为cross-atten,在cross-atten中和风格化的关键帧(anchor view)做交互。同时,不同Batch共享相同的关键帧。

Optical Flow-Guided Sliding Window Method for Pseudo-View Editing

  • 存在问题:多帧风格化的时序一致性问题
  • 解决方案:受ViCA-NeRF启发,在它基础上引入光流做warp。1)选取关键帧(anchor view),对关键帧进行风格化;2)通过原视频计算光流,将风格化后的关键帧warp到其他帧,将其他帧与warp后的风格化关键帧融合;3)使用Anchor-Aware IP2P风格化。

Pseudo-View Propagation Based on Warping

  • 存在问题:空间一致性问题
  • 解决方案:
    • 编辑pseudo-key view的第一帧,以它作为Anchor-aware IP2P的anchor view,风格化其他view的一帧;
    • 对于时间t和视角v下的某帧(v, t),通过光流warp (v, t-1),通过深度和相机视角warp相同时间t和不同视角下的某帧,最终取均值得到待Anchor-Aware IP2P风格化。

Overall Editing Pipeline

  • 通过上述方法迭代地多次生成风格化数据(Instrauct NeRF2NeRF),基于该数据训练NeRF。
  • 一张卡训练NeRF,另一张卡生成风格化数据;
  • 受HiFA启发,随训练时间增加,逐步减少采样时间t;
  • 整个训练选取20个视角,并可在1小时内完成训练。

实验

对比实验

  • 数据集:单目场景(DyCheck、HyperNeRF);2)多目场景:DyNeRF/N3DV;
  • Baselines:IN2N-4D

消融实验

  • IN2N-4D:将IN2N应用在4D数据集上;
  • Video Editing:FateZero对视频帧做编辑;
  • Anchor-Aware IP2P w/o Optical-Flow:去除光流
  • One-time Pseudo-View Progation:

  • 16
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值