【论文精读】FoundationStereo: Zero-Shot Stereo Matching

今天读一篇热乎的CVPR2025的文章,使用foundation model来进行stereo matching,作者来自NVIDIA。
项目页面:FoundationStereo

Abstract

stereo matching目前还缺乏强悍的zero shot generalization,我们介绍FoundationStereo,一种有强大泛化能力的深度估计模型。为了达到这个目标,我们首先构建了一个庞大的(1M stereo pairs)synthetic dataset,并使用一个self-curation pipeline来移除ambiguous samples。然后我们设计了几个网络架构的components来提升scalability,我们引入side-tuning以适配来自vision foundation model的丰富的单目深度先验知识,引入long-range context reasoning以达到高效率的cost volume filtering。

1 Introduction

贡献包含以下:

  • 创建了一个数据集,以及剔除不好sample的pipeline。
  • 提出Side-Tuning Adapter(STA)来适配ViT-based 单目深度估计模型的先验信息。
  • 提出一个Attentive Hybrid Cost Filtering(AHCF),其中包括 3D Axial Planar Convolution(APC)和Disparity Transformer(DT)。

2 Related Work

介绍了一些stereo matching的工作(说明任务和相关方法),以及训练数据(对应dataset方面的贡献),还有vision foundation models(与method相关)。

3 Approach

在这里插入图片描述

3.1 Monocular Foundation Model Adaptation

做了一个有趣的对比实验来决定该如何使用来自DepthAnythingV2的特征图,发现用CNN处理并和最终的output concatenate最好。
在这里插入图片描述

3.2 Attentive Hybrid Cost Filtering

介绍了如何使用APC和DT来增强4D cost volume。

3.3 Iterative Refinement

使用GRU来refine视差图。

3.4 Loss Function

非常简洁的loss:
在这里插入图片描述

3.5 Synthetic Training Dataset

介绍了数据集如何获得和筛选的,也是他们的贡献点之一。

4 Experiments

实验验证了结构设计的有效性,ablation也很充分。

5 Conclusion

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YuhsiHu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值