《Boosting Monocular Depth Estimation Models to High-Resolution ...》论文笔记

参考代码:BoostingMonocularDepth
论文:Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution Merging

1. 概述

导读:这篇文章提出了一种使用现有深度估计模型(MiDas)生成具有更高分辨率/更多细节表现深度图的方法(同时保持高分辨率和深度一致性是现存的挑战)。文章探究了输入的图像分辨率/图像中的结构信息是如何影响最后的深度估计的,也就是输入图像分辨率对模型带来的影响,以及通过图像中的结构信息进行细粒度深度细节优化。文章通过选择合适的策略在保持场景预测连续性和高频信息表达能力上取折中,生成了具有更多细节表现能力的深度估计方法。文章的策略主要归纳为两点:
1)探究分辨率和模型生成深度图的关系,提出一种高低分辨率结果融合机制,提升深度估计的细节表达;
2)在一些细节上使用patch采样的方式对细节信息进行补全,进一步提升细节上的表达,同时也提出一种path和原图的融合策略,用以消除融合问题(path和原图预测出来的深度不一致)。

1.1 对于深度估计模型的观察

输入分辨率与深度估计结果:
在低分辨率(也就是训练使用的分辨率)下,生成的深度预测结果具有较好的深度一致性,但是当把分辨率加大的时候,在出现更多深度细节的同时,深度的一致性预测也被破坏。可以参见下图所示:
在这里插入图片描述

细节分布与深度估计结果:
在大尺寸的深度图预测中,出于CNN网络感受野的原因,在深度细节比CNN网络的感受野相差较远的时候那么就会出现深度预测的不一致性,也就是图像中不同区域的适宜分辨率是各异的。对此文章中通过图像进行采样的方式,为每个采样选择合适的输入分辨率,从而得到更好的深度预测结果。

对与上面的两点文章对其进行分析,将出现这些问题的原因归纳为如下的两点:

  • 1)CNN网络感受野,由于CNN网络自身的设计的原因,需要感知的信息与感受野相差很大的时候会存在感知信息不全的问题,从而出现预测的不一致性,下图就是很好的例子:
    在这里插入图片描述
  • 2)CNN网络固有的表达能力上线,越深越宽的网络其能编码的信息越强,但是这个值也是有一定的范围的。对此文章做了一个实验首先输入 192 ∗ 192 192*192 192192分辨率的图像,得到一个深度预测结果。之后,将这个图像上采样到 500 ∗ 500 500*500 500500(看作是感受野一致),得到一个深度预测结果,见下图所示:
    在这里插入图片描述
    在上面可以看到在一些细节上有所好转,这表明该参与实验的网络是存在一定的表达能力上限的,缺少对更多细节的表达能力。

对此,文章通过上述中提到的不同分辨率深度结果融合/patch选择优化之后融合,从而得到高分辨率且细节表现丰富的深度预测结果。其效果可以参考下图所示:
在这里插入图片描述

2. 方法设计

2.1 整体pipline

在这里插入图片描述
文章整体的pipeline流程可以划分为如下的几个步骤:

  • 1)使用两种分辨率的图像作为输入得到上图(b)中上面的两个结果,之后通过pixel2pixel的方法进行融合得到(b)图下面的结果;
  • 2)之后按照设定的梯度规则选择不同的采样patch,之后对这些path进行预测,也就是上推(c)的过程;
  • 3)之后再将(b)和(c)的结果融合起来得到最后高分辨率的深度预测结果;

2.2 Double Estimation策略

这里首先是输入两个不同分辨率的图像作为输入(也就是训练分辨率和最大无一致性问题的输入分辨率)得到两个深度预测。那么对于这个最大无问题的分辨率(也就是文章中提到的 R 20 R_{20} R20)是怎么确定的呢?文章是通过原模型感受野作为边界,按照一定的规则进行选择的,

  • 8
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
### 回答1: "opencv-boostdesc-vgg.rar"是一个文件的名称,其中包含了使用OpenCV和BoostDesc算法实现的VGG特征描述符的相关内容。OpenCV是一个开源的计算机视觉库,提供了许多用于图像和视频处理的功能和工具。BoostDesc是OpenCV中的一个特征描述算法,用于描述图像中的关键点。 VGG特征描述符是基于深度学习的特征提取方法之一,具有良好的特征表达能力和稳定性。它通过将图像输入预训练好的VGG网络中,提取最后一层全连接层的输出作为特征向量。这样得到的特征向量能够较好地描述图像中的物体和纹理信息。 "opencv-boostdesc-vgg.rar"文件中可能包含了使用BoostDesc算法结合VGG特征描述符的源代码、训练好的VGG网络模型、以及其他相关的资源文件。通过使用这些资源,我们可以使用OpenCV库中提供的接口来提取图像中的关键点,并将其转化为对应的VGG特征向量。 通过使用这个文件,我们可以进行图像特征提取和匹配等计算机视觉任务。对于图像识别、目标跟踪、图像检索等应用,使用VGG特征描述符可以提取到更具有表达力的特征,提高算法的准确性和鲁棒性。 总之,"opencv-boostdesc-vgg.rar"文件提供了一种使用OpenCV库和BoostDesc算法实现VGG特征描述符的方式,可以用于图像处理与计算机视觉的相关任务。 ### 回答2: opencv-boostdesc-vgg.rar是一个压缩文件,其中包含了使用OpenCV库实现的一种特征描述算法,具体是基于BoostDesc和VGGNet的方法。 特征描述算法是计算机视觉领域中非常重要的一个研究方向,它的目标是从图像中提取出具有代表性和区分度的特征点描述子。这些描述子能够用于在不同图像间进行匹配、检索、物体识别等任务。 BoostDesc是一种基于AdaBoost算法的特征描述方法,它能够在提取特征时考虑到图像的梯度方向信息,从而提高了特征描述子的区分度。 VGGNet是一种深度卷积神经网络,它由牛津大学的Visual Geometry Group开发,被用于大规模图像识别任务。将VGGNet应用于特征描述中,可以利用其强大的图像特征提取能力,生成更具有代表性的特征描述子。 所以,opencv-boostdesc-vgg.rar文件中可能包含了实现利用BoostDesc和VGGNet算法进行图像特征描述的相关源代码、模型文件或测试数据等内容。这些资源可以帮助开发者更方便地使用OpenCV库实现基于该算法的图像特征描述任务。 ### 回答3: opencv-boostdesc-vgg是OpenCV库中的一个特征描述符模块,使用了VGG Net的Boosted实现。该模块用于计算图像中关键点的特征描述符,可用于图像识别、目标检测和图像匹配等任务。 Boosted特征描述符是一种计算图像关键点描述符的方法,它结合了多尺度特征和多核学习器的优势。通过使用Boosting算法和多个权重核函数,能够有效提取图像中的局部特征并进行描述。 VGG Net是一种深度卷积神经网络模型,由牛津大学视觉几何组(Visual Geometry Group)提出。它以配置较深的卷积层和全连接层,能够在图像分类和物体识别任务中取得良好的性能。 通过结合Boosted特征描述符和VGG Net模型,opencv-boostdesc-vgg能够在计算特征描述符时获得更准确和具有较高判别能力的结果。该模块提供了多种参数和选项,可以根据应用需求进行灵活的配置和调整。 总之,opencv-boostdesc-vgg是OpenCV中的一个特征描述符模块,使用VGG Net的Boosted实现。它可以用于计算图像关键点的描述符,适用于多种计算机视觉任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值