【CheckNewest】Attention Attention Everywhere:Monocular Depth Prediction with Skip Attention

本文提出了一种新的单目深度估计方法,通过像素查询细化和跨尺度融合来提升准确性。引入跳过注意模块(SAM)以利用编码器的全局信息和解码器的局部细节,同时采用Bin中心预测器(BCP)模块自适应地预测深度范围。在NYUV2、KITTI和SUNRGBD数据集上,该方法超越了现有最先进的技术,提高了绝对相对误差和平方相对误差的表现。
摘要由CSDN通过智能技术生成

check_newest ,泛读最新论文,暂不涉及深层思考!

摘要

单眼深度估计(MDE)的目的是预测给定一个单一RGB图像的像素级深度。对于这两种情况,卷积模型和最近的基于注意力的模型、基于编码器-解码器的架构都被是有用的,因为它们同时需要全局上下文和像素级分辨率。通常,跳过连接模块用于融合编码器和解码器的特征,其中包括特征映射连接,然后是卷积操作。受注意力在许多计算机视觉问题中的好处的启发,作者提出了一种基于注意力的编码器和解码器特征的融合。将MDE作为一个像素查询细化问题,其中最粗级编码器特征用于初始化像素级查询,然后通过提出的跳过注意模块(SAM)将其细化到更高的分辨率。将预测问题表述为离散连续深度范围的bin中心的有序回归,并引入一个bin中心预测器(BCP)模块,该模块使用像素查询在最粗的级别上预测bin。除了图像自适应深度bin的好处外,所提出的设计有助于学习改进的深度嵌入在初始像素查询中,通过直接监督从地面真相。在两个规范数据集NYUV2和KITTI上进行的大量实验表明,文章的架构分别比最先进的架构高出5.3%和3.9%,并且在SUNRGBD数据集上的泛化性能提高了9.4%。

介绍

  • 由于卷积核固有的局部性质,早期的特征图具有更高的分辨率,但缺乏一个全局的接受域。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MengYa_DreamZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值