基于Stable Diffusion的单目深度估计：单步推理新突破！

AI绘画咪酱

于 2024-10-01 09:00:00 发布

阅读量368

点赞数 8

本文链接：https://blog.csdn.net/2401_84760322/article/details/142619090

版权

前言

论文介绍

单目深度估计 (Monocular depth estimation, MDE) 在图像和视频编辑、场景重建、新视角合成和机器人导航等各种应用中发挥着重要作用。然而，由于固有的尺度距离模糊性，这项任务带来了重大挑战，使其成为一个不适定问题。基于学习的方法应利用强大的语义知识来克服这一限制，以获得准确的结果。最近的进展已经看到大型扩散模型应用于 MDE，将深度预测视为条件图像生成问题，但它们存在推理速度慢的问题。在推理过程中重复评估大型神经网络的计算需求已成为该领域的一个主要问题。

所有的AI设计工具，模型和插件，都已经整理好了，👇获取~

最近，已经开发了各种方法来解决 MDE 中的挑战。一种这样的方法是基于像素预测深度的单目深度估计。另一种方法是度量深度估计，它提供了更详细的表示，但由于相机焦距变化而包含额外的复杂性。此外，表面法线估计已经从早期的基于学习的方法发展到复杂的深度学习方法。最近，扩散模型已被应用于几何估计，一些方法可以为单个对象生成多视图深度和法线贴图。VPD 等场景级深度估计方法使用了 Stable Diffusion，但在复杂和现实环境中的泛化仍然是一个挑战。

来自亚琛工业大学和埃因霍温科技大学的研究人员为基于扩散的 MDE 的低效率问题提出了一种创新解决方案。他们利用推理管道中一个较旧的、未被注意到的缺陷开发了一个固定模型，该模型的性能与最佳报告配置相当，但速度提高了 200 倍。在他们的单步模型之上实施了具有特定任务损失的端到端微调，以提高性能。这种方法产生了一个确定性模型，该模型在常见的零样本基准测试中优于所有其他基于扩散的深度和法线估计模型。此外，这种微调协议直接在 Stable Diffusion 上进行，实现了与最先进模型相当的性能。

所提出的方法利用两个合成数据集进行训练：用于逼真室内场景的 Hypersim 和用于驾驶场景的 Virtual KITTI 2，以提供高质量的标注。为了进行评估，使用了一组不同的基准测试，包括用于室内环境的 NYUv2 和 ScanNet、用于室内外混合场景的 ETH3D 和 DIODE 以及用于室外驾驶场景的 KITTI。该实现建立在用于深度估计的官方 Marigold 检查点之上，而法线估计使用类似的设置，将法线贴图编码为颜色通道中的 3D 向量。该团队遵循 Marigold 的超参数，使用 AdamW 优化器对所有模型进行 20,000 次迭代训练。

结果表明，Marigold 的多步去噪过程没有按预期工作，性能随着去噪步骤的增加而下降。固定的 DDIM 调度器在所有步数中都表现出优异的性能。vanilla Marigold、其潜在一致性模型变体和研究人员的单步模型之间的比较表明，固定的 DDIM 调度器在没有集成的情况下，只需一步即可获得相当或更好的结果。此外，Marigold 的端到端微调在没有集成的情况下，只需一步即可优于所有以前的配置。令人惊讶的是，直接微调 Stable Diffusion 产生的结果与 Marigold 预训练模型相似。

总之，研究人员介绍了一种解决基于扩散的 MDE 低效率问题的方案，揭示了 DDIM 调度器实现中的一个关键缺陷。它挑战了先前基于扩散的单目深度和法线估计的结论。研究人员表明，简单的端到端微调优于更复杂的训练管道和架构，而不会失去对扩散预训练为几何任务提供出色先验的假设的支持。由此产生的模型能够进行准确的单步推理，并可以使用大规模数据和先进的自训练方法。这些发现为扩散模型的未来发展奠定了基础，使几何估计中的先验更可靠，性能更优异。