[24] ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis

最新推荐文章于 2024-10-10 00:03:54 发布

zzl_1998

最新推荐文章于 2024-10-10 00:03:54 发布

阅读量492

点赞数 3

文章标签：计算机视觉人工智能新视角生成 3D重建 3D生成

本文链接：https://blog.csdn.net/qq_40731332/article/details/142004913

版权

方法

框架：LDM
给定参考图像和一组新视角下的点云渲染图像，期望生成新视角下的图像。训练过程中，本文通过CLIP嵌入参考图像特征，点云渲染图像通过图像编码器编码后和latent在通道上拼接在一起，送入video denoising U-Net。

给定参考图像，将前向四分之一球面中的相机位姿看作搜索空间；
相机轨迹从某个参考相机位姿开始，从搜索空间中均匀采样K个候选相机位姿；
通过Next-Best-View (NBV)确定相机位姿：。具体来说，通过候选相机位姿渲染候选掩码 $\mathcal{M}_\mathrm{can}$ ，其中1表示occlusion和missing regions，0表示填充区域。 $\mathcal{\theta}$ 表示阈值。候选相机位姿中F(C)值最大的即是下一个相机位姿 $\mathcal{C}_\mathrm{nbv}$ 。
确定参考相机位姿 $\mathcal{C}_\mathrm{curr}$ 和目标相机位姿 $\mathcal{C}_\mathrm{nbv}$ 后，通过插值获取相机轨迹。
生成新视角图像，并反投影回点云中， $\mathcal{C}_\mathrm{nbv}$ 将视作下一阶段的 $\mathcal{C}_\mathrm{curr}$ 。