- 任务:新视角生成(Novel View Synthesis),仅使用单图/稀疏视角图片重建3D物体。
- 现有工作:通过深度图形变和使用扩散模型做图像补全以生成新视角,但他们通常存在严重的内容不一致问题。
- 本文:提出一种基于单图/稀疏图像的通用3D重建方法ViewCrafter:
- 从输入图片中初始化点云;
- 使用相机轨迹规划算法(content-daptive camera trajectory planning),根据当前点云确定相机轨迹序列;
- 渲染点云,以此为条件通过ViewCrafter生成新视角;
- 通过生成的新视角更新点云。
- 通过上述迭代,最终获得点云和多视角图片,可用于面向稀疏图片的3D重建和基于文本的3D生成。
方法
Point Cloud Reconstruction from Single or Sparse Images
- 给定一对图片(也可使用重复的两张图单),使用DUSt3D重建彩色点云,并得到图片对应的相机内外参数。
Rendering High-fidelity Novel Views with Video Diffusion Models
- 框架:LDM
- 给定参考图像和一组新视角下的点云渲染图像,期望生成新视角下的图像。训练过程中,本文通过CLIP嵌入参考图像特征,点云渲染图像通过图像编码器编码后和latent在通道上拼接在一起,送入video denoising U-Net。
Iterative View Synthesis and Camera Trajectory Planning
- 给定参考图像,将前向四分之一球面中的相机位姿看作搜索空间;
- 相机轨迹从某个参考相机位姿开始,从搜索空间中均匀采样K个候选相机位姿;
- 通过Next-Best-View (NBV)确定相机位姿:。具体来说,通过候选相机位姿渲染候选掩码,其中1表示occlusion和missing regions,0表示填充区域。表示阈值。候选相机位姿中F(C)值最大的即是下一个相机位姿。
- 确定参考相机位姿和目标相机位姿后,通过插值获取相机轨迹。
- 生成新视角图像,并反投影回点云中,将视作下一阶段的。
Applications
实验
消融实验