基于Stable Diffusion的单目深度估计:单步推理新突破!

前言

论文介绍

单目深度估计 (Monocular depth estimation, MDE) 在图像和视频编辑、场景重建、新视角合成和机器人导航等各种应用中发挥着重要作用。然而,由于固有的尺度距离模糊性,这项任务带来了重大挑战,使其成为一个不适定问题。基于学习的方法应利用强大的语义知识来克服这一限制,以获得准确的结果。最近的进展已经看到大型扩散模型应用于 MDE,将深度预测视为条件图像生成问题,但它们存在推理速度慢的问题。在推理过程中重复评估大型神经网络的计算需求已成为该领域的一个主要问题。

所有的AI设计工具,模型和插件,都已经整理好了,👇获取~在这里插入图片描述

最近,已经开发了各种方法来解决 MDE 中的挑战。一种这样的方法是基于像素预测深度的单目深度估计。另一种方法是度量深度估计,它提供了更详细的表示,但由于相机焦距变化而包含额外的复杂性。此外,表面法线估计已经从早期的基于学习的方法发展到复杂的深度学习方法。最近,扩散模型已被应用于几何估计,一些方法可以为单个对象生成多视图深度和法线贴图。VPD 等场景级深度估计方法使用了 Stable Diffusion,但在复杂和现实环境中的泛化仍然是一个挑战。

来自亚琛工业大学和埃因霍温科技大学的研究人员为基于扩散的 MDE 的低效率问题提出了一种创新解决方案。他们利用推理管道中一个较旧的、未被注意到的缺陷开发了一个固定模型,该模型的性能与最佳报告配置相当,但速度提高了 200 倍。在他们的单步模型之上实施了具有特定任务损失的端到端微调,以提高性能。这种方法产生了一个确定性模型,该模型在常见的零样本基准测试中优于所有其他基于扩散的深度和法线估计模型。此外,这种微调协议直接在 Stable Diffusion 上进行,实现了与最先进模型相当的性能。

所提出的方法利用两个合成数据集进行训练:用于逼真室内场景的 Hypersim 和用于驾驶场景的 Virtual KITTI 2,以提供高质量的标注。为了进行评估,使用了一组不同的基准测试,包括用于室内环境的 NYUv2 和 ScanNet、用于室内外混合场景的 ETH3D 和 DIODE 以及用于室外驾驶场景的 KITTI。该实现建立在用于深度估计的官方 Marigold 检查点之上,而法线估计使用类似的设置,将法线贴图编码为颜色通道中的 3D 向量。该团队遵循 Marigold 的超参数,使用 AdamW 优化器对所有模型进行 20,000 次迭代训练。

结果表明,Marigold 的多步去噪过程没有按预期工作,性能随着去噪步骤的增加而下降。固定的 DDIM 调度器在所有步数中都表现出优异的性能。vanilla Marigold、其潜在一致性模型变体和研究人员的单步模型之间的比较表明,固定的 DDIM 调度器在没有集成的情况下,只需一步即可获得相当或更好的结果。此外,Marigold 的端到端微调在没有集成的情况下,只需一步即可优于所有以前的配置。令人惊讶的是,直接微调 Stable Diffusion 产生的结果与 Marigold 预训练模型相似。

总之,研究人员介绍了一种解决基于扩散的 MDE 低效率问题的方案,揭示了 DDIM 调度器实现中的一个关键缺陷。它挑战了先前基于扩散的单目深度和法线估计的结论。研究人员表明,简单的端到端微调优于更复杂的训练管道和架构,而不会失去对扩散预训练为几何任务提供出色先验的假设的支持。由此产生的模型能够进行准确的单步推理,并可以使用大规模数据和先进的自训练方法。这些发现为扩散模型的未来发展奠定了基础,使几何估计中的先验更可靠,性能更优异。

论文下载

  • 论文地址:https://arxiv.org/abs/2409.11355v1

  • Github地址:https://github.com/VisualComputingInstitute/diffusion-e2e-ft

这里分享给大家一份Adobe大神整理的《AIGC全家桶学习笔记》,相信大家会对AIGC有着更深入、更系统的理解。

有需要的朋友,可以点击下方免费领取!

在这里插入图片描述

AIGC所有方向的学习路线思维导图

这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。如果下面这个学习路线能帮助大家将AI利用到自身工作上去,那么我的使命也就完成了:
在这里插入图片描述

AIGC工具库

AIGC工具库是一个利用人工智能技术来生成应用程序的代码和内容的工具集合,通过使用AIGC工具库,能更加快速,准确的辅助我们学习AIGC
在这里插入图片描述

有需要的朋友,可以点击下方卡片免费领取!

在这里插入图片描述

精品AIGC学习书籍手册

书籍阅读永不过时,阅读AIGC经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验,结合自身案例融会贯通。

在这里插入图片描述

AI绘画视频合集

我们在学习的时候,往往书籍源码难以理解,阅读困难,这时候视频教程教程是就很适合了,生动形象加上案例实战,科学有趣才能更方便的学习下去。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值