Transformer & 立体视觉 & Depth Estimation

最新推荐文章于 2024-08-24 07:25:04 发布

HelloWorld__来都来了

最新推荐文章于 2024-08-24 07:25:04 发布

阅读量790

点赞数

分类专栏：算法+医学图像处理文献阅读解析文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/chongnannan/article/details/132132148

版权

算法+医学图像处理文献阅读解析专栏收录该内容

43 篇文章 ¥79.90 ¥99.00

订阅专栏

超级会员免费看

本文提出了一种名为Stereo Transformer (STTR)的新型深度学习网络，用于立体深度估计。STTR利用Transformer架构，避免了传统方法中固定视差范围的限制，同时处理遮挡问题并施加匹配唯一性约束。通过在合成和真实图像数据集上的实验，STTR展示了优秀的性能，并能在不同领域中推广。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. Intro

立体深度估计具有重要的意义，因为它能够重建三维信息。为此，在左右相机图像之间匹配相应的像素;对应像素位置的差异，即视差，可以用来推断深度并重建3D场景。最近基于深度学习的立体深度估计方法已经显示出有希望的结果，但仍然存在一些挑战。

其中一个挑战涉及使用有限的视差范围。理论上，视差值的范围可以从0到图像宽度，这取决于相机的分辨率/基线以及它们与物理对象的接近程度。然而，许多性能最好的方法都被限制在手动预先指定的视差范围内(通常最大值为192像素)[21]。这些方法依赖于“成本量”，其中计算多个候选匹配的匹配成本，并计算最终预测的差异值作为总和。这种自我施加的视差范围是必要的，以使这些方法的内存可行的实现，但不是灵活的物理场景和/或相机设置的属性。在自动驾驶和内窥镜干预等应用中，无论相机设置如何(视差值可能大于192)，识别近距离物体以避免碰撞是很重要的，这表明需要放宽固定视差范围假设。

几何属性和约束，如遮挡和匹配唯一性，导致了非学习方法的成功，如[18]，也经常在基于学习的方法中缺失。对于立体深度估计，遮挡区域没有有效的视差。先前的算法通常通过分段平滑假设来推断被遮挡区域的差异，这可能并不总是有效的。提供置信度估计和视差值将有利于下游分析，例如配准或场景理解算法，以便对遮挡和低置信度估计进行加权或拒绝。然而，大多数先前的方法不提供这样的信息。此外，一幅图像中的