CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo

CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo

图片

本文介绍了 FoundationStereo,一种用于立体深度估计的基础模型,旨在实现强大的零样本泛化能力。通过构建大规模(100 万立体图像对)合成训练数据集,结合自动自筛选流程去除模糊样本,并设计了网络架构组件(如侧调谐特征主干和远程上下文推理)来增强可扩展性和准确性。这些创新显著提升了模型在不同领域的鲁棒性和精度,为零样本立体深度估计设立了新标准。

相关论文 FoundationStereo: Zero-Shot Stereo Matching 获得 CVPR 2025 满分评审,代码已开源。

图片

  • 论文地址:https://arxiv.org/abs/2501.09898  

  • 项目主页:https://nvlabs.github.io/FoundationStereo/  

  • 项目代码和数据集:https://github.com/NVlabs/FoundationStereo/  

图片

对比常用 RGBD 相机:

图片

目前 FoundationStereo 在 Middlebury, ETH3D 等多个排行榜位列第一。

图片

图片

引言

立体匹配算法虽在基准数据集上表现优异,但零样本泛化能力仍不足。现有方法依赖目标域微调,且受限于网络结构或数据规模。本文提出 FoundationStereo,通过大规模合成数据、自筛选流程及结合单目先验的架构设计,实现了无需微调的跨域泛化能力。主要贡献如下:

1.FoundationStereo 大模型

  • 提出首个零样本泛化能力强大的立体匹配基础模型,无需目标域微调即可在多样场景(室内 / 室外、无纹理 / 反射 / 透明物体等)中实现高精度深度估计。

2. 大规模合成数据集(FSD)

  • 构建包含 100 万立体图像对的高保真合成数据集,覆盖复杂光照、随机相机参数及多样化 3D 资产,并通过路径追踪渲染提升真实性。

  • 设计

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

smartvxworks

创造不易,感谢支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值