今天读一篇热乎的CVPR2025的文章,使用foundation model来进行stereo matching,作者来自NVIDIA。
项目页面:FoundationStereo
文章目录
Abstract
stereo matching目前还缺乏强悍的zero shot generalization,我们介绍FoundationStereo,一种有强大泛化能力的深度估计模型。为了达到这个目标,我们首先构建了一个庞大的(1M stereo pairs)synthetic dataset,并使用一个self-curation pipeline来移除ambiguous samples。然后我们设计了几个网络架构的components来提升scalability,我们引入side-tuning以适配来自vision foundation model的丰富的单目深度先验知识,引入long-range context reasoning以达到高效率的cost volume filtering。
1 Introduction
贡献包含以下:
- 创建了一个数据集,以及剔除不好sample的pipeline。
- 提出Side-Tuning Adapter(STA)来适配ViT-based 单目深度估计模型的先验信息。
- 提出一个Attentive Hybrid Cost Filtering(AHCF),其中包括 3D Axial Planar Convolution(APC)和Disparity Transformer(DT)。
2 Related Work
介绍了一些stereo matching的工作(说明任务和相关方法),以及训练数据(对应dataset方面的贡献),还有vision foundation models(与method相关)。
3 Approach
3.1 Monocular Foundation Model Adaptation
做了一个有趣的对比实验来决定该如何使用来自DepthAnythingV2的特征图,发现用CNN处理并和最终的output concatenate最好。
3.2 Attentive Hybrid Cost Filtering
介绍了如何使用APC和DT来增强4D cost volume。
3.3 Iterative Refinement
使用GRU来refine视差图。
3.4 Loss Function
非常简洁的loss:
3.5 Synthetic Training Dataset
介绍了数据集如何获得和筛选的,也是他们的贡献点之一。
4 Experiments
实验验证了结构设计的有效性,ablation也很充分。