PatchFusion: An End-to-End Tile-Based Frameworkfor High-Resolution Monocular 深度估计（CVPR 24）

最新推荐文章于 2025-05-01 18:19:05 发布

豪言成笑谈

最新推荐文章于 2025-05-01 18:19:05 发布

阅读量801

点赞数 7

分类专栏：【论文】单目深度估计文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_43559672/article/details/139052327

版权

【论文】单目深度估计专栏收录该内容

1 篇文章

订阅专栏

动机

目前的单目深度估计方法受主干网络分辨率的影响。训练数据的分辨率一本是几百×几百，而目前先进的相机上千万的像素分辨率。将当前方法直接扩展到高分辨率受到计算资源的限制。目前也有一些方法尝试解决这个gap：

（1）Guided Depth Super-Resolution (GDSR)：使用高分辨率的RGB图像和低分辨率的深度图，深度超分辨。

（2）隐函数方法，如SMDNet，Nerf等，将场景或特征建模为一个隐函数，可以计算任意位置的0深度。

（3）BoostingDepth提出的基于切片的方法。整张图下采样和原分辨率的切片分别估计深度，然后统一处理合并切片。

作者主要提出BoostingDepth的一些缺点，尺度不一致、融合网络缺少有效全局引导。

提出了PatchFusion，端到端的基于切片的高分辨率深度估计方法。

方法

需要注意的是：这里深度估计的上下文（context），指的是估计出深度信息所必要的周围的信息，如纹理梯度等。

在低分辨率的数据集上训练预训练模型，然后用于切片的高分辨率深度估计。

融合模型

（1）Global Scale-Aware Estimation

将高分辨率图像降采样到模型原始分辨率，然后得到粗深度图Dc。

（2）Local Fine-Depth Estimation

将原始图像切片成模型输入相同或相近的分辨率，然后分片预测深度，得到Df，但是这样做忽略了全局信息，得到的分片深度图有伪影或者偏移。

（3）Fusion and Guided Fusion Network

如图2中b所示，

G2L模块：如下图所示，保留全局的上下文。基于swintansformer，经过一个localized windows for self-attention (W-SA), which is then followed by shifted window attention for inter-window interactions (SW-SA).

输入是原始图像和对应的粗深度图的裁剪。模块A是简单的卷积层和池化的堆叠，输入原始分辨率图像的切片的堆叠，Dc和Df，（图a中最下面那个Ng就是b Guided Fusion Network）。模块A的输出和粗糙特征Fc输入模块B，Fc经过G2L模块，得到的特征，由于粗糙特征分辨率小，因此参考了mask-rcnn中的roi操作，将低分辨率的特征和高分辨率的切块特征对齐。然后再经过两个卷积。模块c的输入为B的输出，直接对粗糙特征使用roi，Ff和低尺度上采样。