[24] ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis

[pdf | code | proj]

  • 任务:新视角生成(Novel View Synthesis),仅使用单图/稀疏视角图片重建3D物体。
  • 现有工作:通过深度图形变和使用扩散模型做图像补全以生成新视角,但他们通常存在严重的内容不一致问题。
  • 本文:提出一种基于单图/稀疏图像的通用3D重建方法ViewCrafter:
    • 从输入图片中初始化点云;
    • 使用相机轨迹规划算法(content-daptive camera trajectory planning),根据当前点云确定相机轨迹序列;
    • 渲染点云,以此为条件通过ViewCrafter生成新视角;
    • 通过生成的新视角更新点云。
    • 通过上述迭代,最终获得点云和多视角图片,可用于面向稀疏图片的3D重建和基于文本的3D生成。

方法

Point Cloud Reconstruction from Single or Sparse Images

  • 给定一对图片(也可使用重复的两张图单),使用DUSt3D重建彩色点云,并得到图片对应的相机内外参数。

Rendering High-fidelity Novel Views with Video Diffusion Models

  • 框架:LDM
  • 给定参考图像和一组新视角下的点云渲染图像,期望生成新视角下的图像。训练过程中,本文通过CLIP嵌入参考图像特征,点云渲染图像通过图像编码器编码后和latent在通道上拼接在一起,送入video denoising U-Net。

Iterative View Synthesis and Camera Trajectory Planning

  • 给定参考图像,将前向四分之一球面中的相机位姿看作搜索空间;
  • 相机轨迹从某个参考相机位姿开始,从搜索空间中均匀采样K个候选相机位姿;
  • 通过Next-Best-View (NBV)确定相机位姿:。具体来说,通过候选相机位姿渲染候选掩码\mathcal{M}_\mathrm{can},其中1表示occlusion和missing regions,0表示填充区域。\mathcal{\theta}表示阈值。候选相机位姿中F(C)值最大的即是下一个相机位姿\mathcal{C}_\mathrm{nbv}
  • 确定参考相机位姿\mathcal{C}_\mathrm{curr}和目标相机位姿\mathcal{C}_\mathrm{nbv}后,通过插值获取相机轨迹。
  • 生成新视角图像,并反投影回点云中,\mathcal{C}_\mathrm{nbv}将视作下一阶段的\mathcal{C}_\mathrm{curr}

Applications

实验

消融实验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值