Boosting Monocular Depth Estimation Models to High-Resolution viaContent-Adaptive Multi-Resoluti

一、贡献

我们提出了一种双估计(double estimation)方法,提高了整个图像的深度估计;以及一种补丁选择(patch selection)方法,增加了局部细节的最终结果。我们证明,使用一个预先训练的模型,在不同的分辨率与不断变化的内容下通过合并估计,我们可以生成多百万像素的深度图与高层次的细节。

二、动机/观察

分辨率对深度估计的影响:

大多数深度估计方法遵循使用预定义和相对低的输入分辨率进行训练的常见实践,但模型本身是完全卷积的,其原则上可以处理任意输入大小。然而,当我们将图像输入到具有不同分辨率的同一模型中时,我们会看到结果特征中的特定趋势。

上图表明,在较小分辨率下,估计缺乏许多高频细节,但生成场景具有一致的整体结构。随着输入分辨率变得更高,更多的细节在结果中生成,但我们看到场景结构中的不一致性,其特征在于图像区域之间的深度逐渐偏移。我们通过有限的容量和有限的感受野大小解释这种二元性。

网络的感受野大小主要取决于结构以及训练分辨率。它可以被定义为像素周围的区域,该区域对该像素处的输出有贡献。由于单目深度估计依赖于上下文线索,当图像中的这些线索比感受野分开得更远时,网络不能在没有接收到足够信息的像素周围生成相干深度估计。我们用图4中的一个简单场景演示了这种行为。MiDaS的感受野大小为384 × 384,随着输入分辨率变得更大,并且集中在图像边缘的上下文线索距离超过384像素,它开始在图像区域之间产生不一致。

卷积神经网络具有固有的有限容量,为它们可以存储和生成的信息量提供了上限。由于网络一次只能看到与其感受野大小一样多的东西,因此容量的限制适用于网络在其感受野内所能产生的东西。我们将在低分辨率估计深度时缺乏高频细节归因于这一限制。当输入中存在许多上下文线索时,网络能够更好地推理场景中的较大结构,并且因此能够生成一致的结构。然而,这导致网络不能同时生成高频细节,这是由于可以在单次前向传递中生成的信息量有限。

我们在图5中展示了一个简单的实验。我们使用192×192像素的原始输入图像,并简单地对其进行上采样以生成更高分辨率的结果。这样,输入中的高频信息量保持不变,但我们仍然看到结果中的高分辨率细节增加,这表明网络容量有限。因此,我们认为,网络被集中在一个小图像中的上下文线索的量淹没,并且只能生成场景的整体结构。

三、方法

双估计(double estimation):

我们的目标是生成待合并的单个图像的多个深度估计,以实现具有一致的整体结构的高频细节的结果。这需要(i)检索图像中的上下文线索的分布,我们将使用该分布来确定网络的输入,以及(ii)合并操作,以将高频细节从一个估计转移到另一个具有结构一致性的估计。

对于上下文线索。根据观察,图像边缘与上下文线索合理地相关,我们使用阈值RGB梯度作为获得的图像的近似边缘图。

使用边缘图作为上下文线索的代替,我们可以通过确保没有像素远离上下文线索超过一半的感受野大小来确定该最大分辨率。为了这个目的,我们应用二进制膨胀的边缘图与感受野大小的核在不同的分辨率。然后,扩展边缘图停止以产生全1结果的分辨率是其中每个像素将在前向通过中接收上下文信息的最大分辨率。我们将适应于图像内容的这种分辨率称为R0。我们将把R0以上的分辨率称为Rx,其中x表示感受野内无边缘线索像素的百分比。

对于合并深度估计。我们的目标是将高分辨率输出的高频细节嵌入到低分辨率输出中,这为完整图像提供了一致的结构和固定的深度范围。虽然这个问题类似于梯度转移方法,例如泊松混合(Poisson image editing,2023),但由于高分辨率估计中的低频伪影,这种low-level方法对于我们的目的来说表现不佳。相反,我们使用10层的U-net作为生成器。我们选择10层而不是默认的6层,旨在将训练和推理分辨率提高到1024 × 1024,以实现广泛的输入分辨率。

我们训练网络将细粒度的细节从高分辨率输入传输到低分辨率输入。为此,我们通过从Middlebury 2014Ibims-1的选定图像集的深度估计中选择patch来生成输入/输出对。虽然创建低分辨率和高分辨率输入不是问题,但无法原生生成一致的高分辨率真值。请注意,我们也不能直接利用原始深度真值数据,因为我们训练网络仅用于低级合并操作,并且期望的输出取决于低分辨率估计中的深度值的范围。相反,我们凭经验选择672*672像素作为网络的输入分辨率,这最大化了我们可以在两个数据集上获得的无伪影估计的数量。为了确保真值和更高分辨率的patch估计具有相同数量的细粒度的细节,我们应用引导滤波器的patch估计使用地面实况估计作为指导。这些修改后的高分辨率补丁充当代理地面实况的无缝合并版本的低分辨率和高分辨率估计。

根据这些观察,我们提出双重估计:为我们以两种不同的分辨率将图像送到网络,并合并估计以获得具有高频细节的一致结果。我们的低分辨率被设置为网络的感受野大小,这将决定图像中的整体结构。低于感受野大小的分辨率不会改善结构,并且实际上会降低性能,因为没有利用网络的全部容量。我们的合并网络可以成功地将高频细节合并到低分辨率估计的结构上,直到R20(可以高于原始分辨率)。在R20之外的估计中的低分辨率伪影开始损害合并结果。

块估计提升局部细节(Patch Estimates for Local Boosting):

显然,具有更高上下文线索密度的区域将受益于更高分辨率的估计以生成更多高频细节。

我们通过以基本分辨率平铺图像来开始块选择过程,其中块大小等于感受野大小,每块之间有1/3重叠。如果块的边缘密度小于图像,则丢弃该图块。如果图块具有更高的边缘密度,则增加块的大小,直到边缘密度与原始图像匹配。这确保每个块估计具有稳定的结构。

我们使用另一种双重估计方案生成深度估计补丁。由于块是相对于边缘密度选择的,因此我们不进一步调整估计分辨率。我们将高分辨率估计大小固定为感受野大小的两倍。所生成的块估计然后被逐个合并到该基础估计上以生成更详细的深度图。然后,由于单目深度估计仅能提供相对深度,我们之前设计的合并网络可以再次使用,将补丁估计中的高频细节合并到基本估计上。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值