论文笔记-Monocular Depth Estimation Using Whole Strip Masking and Reliability-Based Refinement-CSDN博客

本文链接：https://blog.csdn.net/kingsleyluoxin/article/details/108416455

论文信息

论文标题：Monocular Depth Estimation Using Whole Strip Masking and Reliability-Based Refinement
论文作者：Minhyeok Heo, Jaehan Lee, Kyung-Rae Kim, Han-Ul Kim, Chang-Su Kim
研究机构：NAVER LABS;
论文出处：School of Electrical Engineering, Korea University

引用信息：

@inproceedings{DBLP:conf/eccv/HeoLKKK18,
  author    = {Minhyeok Heo and
               Jaehan Lee and
               Kyung{-}Rae Kim and
               Han{-}Ul Kim and
               Chang{-}Su Kim},
  editor    = {Vittorio Ferrari and
               Martial Hebert and
               Cristian Sminchisescu and
               Yair Weiss},
  title     = {Monocular Depth Estimation Using Whole Strip Masking and Reliability-Based
               Refinement},
  booktitle = {Computer Vision - {ECCV} 2018 - 15th European Conference, Munich,
               Germany, September 8-14, 2018, Proceedings, Part {IV}},
  series    = {Lecture Notes in Computer Science},
  volume    = {11208},
  pages     = {39--55},
  publisher = {Springer},
  year      = {2018},
  url       = {https://doi.org/10.1007/978-3-030-01225-0\_3},
  doi       = {10.1007/978-3-030-01225-0\_3},
  timestamp = {Tue, 14 May 2019 10:00:45 +0200},
  biburl    = {https://dblp.org/rec/conf/eccv/HeoLKKK18.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

代码链接：None

论文主要贡献和参考价值

主要贡献
- 提出 WSM 全带掩模模块用于新的深度估计 DCNN 模型
- 衡量深度估计结果的可靠性，并使用这个信息优化深度估计结果
参考价值：

论文要点翻译
- 摘要
  - 本文提出了基于全带掩膜（whole strip masking）的单目深度估计方法，和基于可靠性的优化方法
  - 首先，本文提出了修改的用于深度估计的 CNN，具体而言，设计了新的滤波器，也就是 WSM，用于探索场景中水平或者垂直方向的拥有相似深度指的去世，提出的 CNN 将 WSM 的上采样块和 Reset 的编码器进行组合
  - 其次，本文衡量估计深度的可靠性，衡量方式主要是利用额外的几个 CNN 层辅助原有的 CNN 网络，通过可靠性信息，本文利用 CRF 优化估计的深度图
  - 实验结果表明提出的方法达到单目深度估计任务的 SOTA 性能
- 引言
  - 单目深度估计是计算机视觉的基础研究问题，人类可以利用图像简单地推理深度信息，因为人类使用各种各样的视觉线索等，但是这个任务对于计算机模拟实现而言是困难的，尤其在于，比起双目立体匹配和基于视频的方法，单目（单张图像）的深度估计甚至难度更大，这主要是缺乏可靠的视觉线索造成的
  - 早期的单目深度估计研究主要使用额外的信息弥补这些缺乏的视觉线索，例如使用合模型和典型的户内房间等，这些强假设条件使得方法在首先条件下很有用，一些研究也使用用户标注数据和语义标签等作为额外数据，但是这些数据并不总是可以获取的；此外，基于几何信息和语义线索手工构造的特征也被使用，比如，由于水平或者垂直方向上的像素通常具有相似的深度值，但是，这些手工构造的特征通常是不清晰的，最近已经被机器学习方法取代
  - 随着标注数据的增多，许多基于数据的方法被提出，许多基于CNN 的方法也被用于单目深度估计，这些方法自动地、隐式地学习图像特征表示，不需要额外的特征工程，也有许多方法将 CNN 和 CRF 组合起来进行优化，提高预测深度图的质量
  - 本文工作提出新的基于 CNN 算法的单目深度估计算法，能够通过对深度信息的统计规律探索得到更精确的深度估计结果。首先，本文提出新的上采样块，即全带掩膜 WSM ，用于探索深度值在水平或者垂直方向的平滑性的趋势，本文通过将这些上采样块层叠的方式，结合 ResNet 进行深度估计；其次，本文使用深度信息的可靠性用于估计深度，本文对每个像素的估计深度进行可靠性/置信度的衡量，使用这个信息定义一元的和成对的 CRF，通过基于可靠性的 CRF 优化，本文对估计的深度图进行优化，提高估计结果的精度
- 相关工作
  - CNN 之前的深度估计方法：手工构造特征、MRF
  - 基于 CNN 的深度估计方法：Eigen 经典方法、对上采样块的修改、傅里叶分析等方法的优化
  - 结合 CRF 对 CNN 方法的优化：基于超像素的方法、层次化的 CRF 方法、联合语义分割的优化方法
- 方法
  - 方法概览：首先将输入的图像基于 ResNet-50 编码得到特征向量，通过 4 个 WSM 模块对特征向量进行上采样；解码得到的结果主要用于（1）估计深度图 $\widehat d$ 和（2）深度信息可靠性图 $\alpha$ ；最终，使用 $\alpha$ 结合 CRF 优化处理估计结果 $\widehat d$ 并最终得到优化深度图 $\tilde d$
  - 深度估计
    - 现有的 CNN 大多通过编码器和解码器的组合实现高分辨率的图像输出，编码器部分对空间分辨率进行下采样处理，主要通过空间池化或者带步长的卷积，对于编码器部分，在大数据集的预训练模型直接不经修改使用或者在小数据集上进行精调加速网络学习过程，用于特定的任务；另一方面，在解码器部分处理输入的特征图获取得到高分辨率的输出，也就是说，编码器部分对信号进行压缩，而解码器部分对压缩信号进行扩展；压缩操作使得网络在不需要许多参数的情况下获得了较大的感受野
    - 即使有了 DCNN，实际的有效范围仍然小于理论的感受野，【30】观察到不是感受野中的所有像素都对输出有意义，尤其在深度估计任务中，没有用的像素应当被忽略
    - 而在同一张深度图中通常水平方向或者垂直方向上的像素点的深度值有较强的相关性，比如一个房间中的天花板通常是横贯一条水平线的，而房间门则是横贯一条垂直线，还有一点，一个物体中的深度值方差通常较小，因此，传统的 CNN 的感受野有限的有效感受野可能使得深度估计性能下降
    - 为了克服这些局限，本文提出新的滤波器，即 WSM，对于上采样块，典型的卷积层使用 zero-padding 技术维持相同的分辨率，使用正方形的小尺寸的卷积核，因此卷积层的输出仅仅是将输入特征的局部信息进行融合，例如输入的墙面有相似的深度值和特征值，但是卷积层却得到了不一致的深度图结果，本文的 WSM 用于考虑狭长的矩形核，在水平或者垂直方向重复运用该核进行计算，最终得到的结果可以有效重建
    - 假设输入的特征空间分辨率为 $\times H$ ，如果使用一个 $\times H$ 的 WSM 层，首先使用 zero-padding 技术只用在水平方向，然后使用 $\times H$ 的核做水平卷积，生成压缩的 $\times 1$ 特征图，压缩的特征图得到的是垂直方法带的总结信息，下一步，通过重复这个卷积带，可以得到输出的结果，相似的 $\times 3$ 的核也可以通过这种方式运作
    - 本文同时在上采样块中使用 $\times H$ 和 $\times 3$ 的 WSM 层，WSM 上采样单独使用依然会有局限：（1）局部信息和全局信息都很重要（2）对于高分辨率的图像，WSM 需要较多参数；为了避免两个局限，本文提出使用 inception 结构区完成结果的融合，利用 1x1 卷积对输入特征维度进行处理，减少参数数量，然后使用 WSM 组成 inception 结构，提出的 WSM 上采样可以有效最大化网络负载，集成全局信息和局部信息，需要的模型参数不会增加太多
    - WSM 上采样块中，首先通过一个 deconv 层将输入进行上采样得到 2 倍的空间分辨率，然后加上 1x1 卷积减少空间通道数，使用 WSM 层和 3x3、5x5 卷积实现特征组合，各感受野对应的特征拼接得到最后的输出
  - 深度图优化
    - 提出的深度估计结果仍然包含一些误差，主要存在于物体边缘区域等，在许多估计问题中，都会同时预测估计结果和估计结果的可靠性/置信度，例如，经典的 depth-from-motion 问题同时估计深度和深度不确定性，本文采用相似的策略，对深度估计结果的可靠性进行量化描述，该描述源于完全相同的解码器特征
    - 本文对网络进行扩展学习可靠性，可靠性图通过两个额外的 1x1 卷积层实现，这两个卷积层的训练则是定义绝对预测误差 $|\hat d_i-d_i^{gt}|$ 进行损失函数评估的，添加的卷积层的输出不是可靠性的值，而是一个误差的估计，因此将这个误差估计的值正则化到区间 [0,1] 上，用 1 减去这个误差估计值，则是得到的可靠性值
    - 基于可靠性图 $\alpha$ 可以对条件概率分布进行建模 $p(d|\hat d,\alpha)=\frac 1Z \cdot \exp(-E(d,\hat d,\alpha))$ 其中的 E 是能量函数，Z 是正则化项
    - $E(d,\hat d,\alpha)=U(d,\hat d,\alpha)+\lambda \cdot V(d,\alpha)=\sum_{i} \alpha_i(d_i-\hat d_i)^2+\sum_i(d_i-\sum_{j \in \mathcal N_i}w_{ij}d_j)^2$
    - 其中的 $w_{ij}=\frac{\alpha_j}T\cdot \exp(- \frac{\sum_{x \in \mathcal C} \|\mathbf B_i \circ (\mathcal S_i^c-\mathcal S_j^c) \|^2_2}{2\cdot 3 \cdot\sigma_1^2})$
    - 而 $B_{i,k}=\exp(- \frac{\sum_{x \in \mathcal C} (I_i^c-I_k^x)^2}{2\cdot 3 \cdot\sigma_2^2})$
    - 即能量函数可以表达为 $E(d,\hat d,\alpha)=(d-\hat d)^T A(d-\hat d)+\lambda (d-Wd)^T(d-Wd)$
    - 优化结果： $\tilde d =\arg \max_d p(d|\hat d,\alpha)=\arg \min_d E(d,\hat d,\alpha)=(A+\lambda(I-W)^T(I-W))^{-1}A \hat d$