【CheckNewest】Attention Attention Everywhere:Monocular Depth Prediction with Skip Attention_attention attention everywhere: monocular depth pr-CSDN博客

本文链接：https://blog.csdn.net/mengya_dream/article/details/127739772

本文提出了一种新的单目深度估计方法，通过像素查询细化和跨尺度融合来提升准确性。引入跳过注意模块（SAM）以利用编码器的全局信息和解码器的局部细节，同时采用Bin中心预测器（BCP）模块自适应地预测深度范围。在NYUV2、KITTI和SUNRGBD数据集上，该方法超越了现有最先进的技术，提高了绝对相对误差和平方相对误差的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

check_newest ,泛读最新论文，暂不涉及深层思考！

摘要

单眼深度估计（MDE）的目的是预测给定一个单一RGB图像的像素级深度。对于这两种情况，卷积模型和最近的基于注意力的模型、基于编码器-解码器的架构都被是有用的，因为它们同时需要全局上下文和像素级分辨率。通常，跳过连接模块用于融合编码器和解码器的特征，其中包括特征映射连接，然后是卷积操作。受注意力在许多计算机视觉问题中的好处的启发，作者提出了一种基于注意力的编码器和解码器特征的融合。将MDE作为一个像素查询细化问题，其中最粗级编码器特征用于初始化像素级查询，然后通过提出的跳过注意模块（SAM）将其细化到更高的分辨率。将预测问题表述为离散连续深度范围的bin中心的有序回归，并引入一个bin中心预测器（BCP）模块，该模块使用像素查询在最粗的级别上预测bin。除了图像自适应深度bin的好处外，所提出的设计有助于学习改进的深度嵌入在初始像素查询中，通过直接监督从地面真相。在两个规范数据集NYUV2和KITTI上进行的大量实验表明，文章的架构分别比最先进的架构高出5.3%和3.9%，并且在SUNRGBD数据集上的泛化性能提高了9.4%。