尽管图像到3D生成领域取得了巨大进展,现有方法在生成具有高分辨率纹理细节的多视角一致图像方面仍然存在挑战,尤其是在缺乏3D感知的2D扩散模型范式中。本文提出了一种名为Hi3D的高分辨率图像到3D生成框架,该框架首先从输入图像生成多视角一致的图像,然后从这些生成的图像重建高保真的3D网格。Hi3D通过利用预训练的视频扩散模型,将单图像到多视角图像的转换重新定义为3D感知的序列图像生成(即轨道视频生成)。这种方法深入挖掘了视频扩散模型中的时间一致性知识,这些知识可以很好地推广到3D生成中的几何一致性。技术上,Hi3D首先赋予预训练的视频扩散模型3D感知先验(相机姿态条件),产生具有低分辨率纹理细节的多视角图像。接着,学习一个3D感知的视频到视频细化器,进一步提高多视角图像的分辨率和纹理细节。这些高分辨率的多视角图像通过3D高斯散射进一步增强,最终通过3D重建获得高保真网格。广泛的实验表明,Hi3D在新颖视图合成和单视图重建任务上都取得了优越的性能。
模型方法
Hi3D模型采用了两阶段的方法来实现高分辨率的图像到3D生成。
第一阶段:基础多视角生成
- 目标:将单视图图像转换成低分辨率的3D感知序列图像(轨道视频)。
- 方法:使用预训练的视频扩散模型,通过额外的相机姿态条件进行微调,以生成多视角一致的序列图像。
- 数据集:使用从Objaverse数据集的LVIS子集中渲染的高分辨率多视角图像数据集进行训练。
- 训练细节:输入图像通过VAE编码器投影到潜在空间,并与噪声潜在序列进行通道级联接,以鼓励合成的多视角图像保留输入图像的身份和细节。
第二阶段:3D感知多视角细化
- 目标:将第一阶段生成的低分辨率多视角图像进一步细化为具有高分辨率纹理细节的图像。
- 方法:设计一个新的3D感知视频到视频细化器,利用深度信息进一步提升图像的分辨率和细节。
- 训练细节:采用VAE编码器提取预生成多视角图像的潜在代码序列,并与噪声潜在代码进行通道级联接。同时,利用现成的深度估计模型来估计生成的多视角图像的深度,作为3D线索。
3D网格提取
- 目标:从生成的高分辨率多视角图像中提取高质量的3D网格。
- 方法:首先使用3D高斯散射(3DGS)算法从生成的高分辨率图像序列中学习隐式3D模型,然后通过基于SDF的重建方法提取3D网格。
- 细节:通过3DGS渲染额外的插值视图,并优化SDF重建方法,从增强的密集视图中提取高质量的3D网格。
实验
- 数据集:使用Google Scanned Objects (GSO) 数据集进行定量评估。
- 指标:采用PSNR、SSIM和LPIPS等指标进行新颖视图合成任务的评估;采用Chamfer Distances和Volume IoU评估单视图重建任务的质量。
- 比较方法:与RealFusion、Zero123、SyncDreamer、EpiDiff等最新方法进行比较。
-
结论
Hi3D通过利用预训练视频扩散模型中的3D先验知识,有效地提高了图像到3D生成的质量。该方法通过两阶段的视频扩散模型范式,实现了高分辨率图像到3D的生成,具有创新性和实用性。