论文笔记-Structure-Aware Residual Pyramid Network for Monocular Depth Estimation

论文信息

  • 论文标题:Structure-Aware Residual Pyramid Network for Monocular Depth Estimation

  • 论文作者:Xiaotian Chen, Xuejin Chen, and Zheng-Jun Zha

  • 研究机构:中国科学技术大学

  • 论文出处:IJCAI 2019

  • 引用信息:

    @inproceedings{DBLP:conf/ijcai/ChenCZ19,
      author    = {Xiaotian Chen and
                   Xuejin Chen and
                   Zheng{-}Jun Zha},
      editor    = {Sarit Kraus},
      title     = {Structure-Aware Residual Pyramid Network for Monocular Depth Estimation},
      booktitle = {Proceedings of the Twenty-Eighth International Joint Conference on
                   Artificial Intelligence, {IJCAI} 2019, Macao, China, August 10-16,
                   2019},
      pages     = {694--700},
      publisher = {ijcai.org},
      year      = {2019},
      url       = {https://doi.org/10.24963/ijcai.2019/98},
      doi       = {10.24963/ijcai.2019/98},
      timestamp = {Tue, 20 Aug 2019 16:18:18 +0200},
      biburl    = {https://dblp.org/rec/conf/ijcai/ChenCZ19.bib},
      bibsource = {dblp computer science bibliography, https://dblp.org}
    }
    
  • 代码链接:https://github.com/Xt-Chen/SARPN

论文主要贡献和参考价值

  • 主要贡献:

    • 提出 Structure-Aware Residual Pyramid Network 考虑不同尺度的潜在的场景结构信息
    • 提出 Adaptive Dense Feature Fusion 模块用于从所有尺度特征中适应性地选择特征并用于不同结构尺度的残差深度估计
  • 参考价值:

    • 多尺度信息的探索
  • 特征混合的方式类似于注意力机制

    论文要点翻译

    • 摘要
      • 单目深度估计是场景理解中的重要步骤,复杂场景中的物体隐含的结构很难得到精确、视觉效果良好的深度图
      • 全局的结构反应场景的分布和布局,而局部的结构则反应形状细节信息,最近的基于 CNN 的方法已经显著提高了深度估计的性能,但是,这些方法中鲜有考虑复杂场景条件下的多尺度结构的
      • 本文提出了结构敏感的残差金字塔网络,用于精确深度估计。其中的残差金字塔解码器结合了上级的全局场景结构信息,以及低级的局部形状细节的信息;在每个级别特征中提出残差优化模块,预测残差图用于渐进地对上一级预测的粗粒度的结构进行优化;为了充分探索多尺度的图像信息,本文提出了适应的密集特征混合模块用于将不同尺度的特征进行自适应地混合,进而推理得到每个尺度特征对应的结构信息
      • NYU-D 数据集上的定量实验结果和定性的结果分析说明了提出方法已经达到 SOTA 性能
    • 引言
      • 单目深度估计利用 RGB 图像估计每个像素的深度指,是理解场景几何关系的关键技术,可用于辅助进行语义分割、手势追踪等多项视觉任务。但是,由于视角的透视投影关系具有固有的歧义性,单目深度估计是一个病态问题
      • 最近的基于 CNN 的方法已经在单目深度领域取得成功应用,为了解决歧义性,这些方法通常使用编码器-解码器的结构用于隐式地将不同级别的特征进行混合,借此有效表达物体外观、几何信息、语义信息、空间关系等。编码器通常渐进地提取不同级别尺度的特征,解码器则利用多阶段的上采样操作和跨层连接操作恢复物体的细节信息并对深度值加以估计
      • 虽然像素级预测值的平均误差已经得到显著改进,但是现有的 CNN 方法依然不能较好地保留物体本身具有的地层的结构信息,这个问题在复杂场景中尤为明显,因为复杂场景中的物体大小变化较大,因此,现有的方法难以同时精确恢复大尺度的几何信息(例如墙面)和局部的细节信息(例如物体边界和形状等细节),不同尺度的区域的精确估计推理使得本文意识到在深度估计中探索多尺度场景结构的重要性
      • 场景结构描述了复杂场景中多个互相关联物体之间的组织关系。通常那个根据元素的类型而变化,全局的结构表示大物体的空间关系(例如 NYU 中的墙面、地板、家具),局部的结构则描述物体及物体内部不同部分的几何细节信息
      • 场景结构天然的层次性提供了不同尺度物体像素的深度值的必要约束关系,虽然之前的 CNN 方法也提取了多尺度的特征信息,并将这些特征渐进混合用于深度图的预测,但是场景中潜在的层次结构关系依然没有得到考虑
      • 匾额我呢提出了场景结构敏感的残差金字塔网络 SARPN,用于充分探索不同尺度的场景结构信息,改进深度预测结果。其中的残差金字塔解码器用于从粗粒度到细粒度的不同尺度的深度信息,金字塔高层的深度图表示场景中的全局结构信息,而其中的底层深度图则更多地是表示物体及其组成部分的局部结构信息
      • 为了包含全局的结构信息并保持较好的局部细节,本文提出残差优化模块用于预测残差深度图,主要通过渐进添加细节的方式,基于大尺度的场景结构,逐渐得到细粒度的深度图。为在残差混合的过程中有效混合多尺度的图像特征,本文提出了适应密集特征混合模块用于适应地选择每个尺度的有效表达特征
      • 残差金字塔解码器和适应密集特征融合模块的组合使得方法能够同时保留层次化的场景结构信息,并得到精确的深度图,深度图中的大物体和小物体的局部信息都得到较好保留
    • 相关工作
      • 典型的利用 CNN 的深度估计方法
      • 改进深度估计中的局部细节信息,得到高分辨率的细粒度深度估计
      • 多尺度的深度估计网络(扩张卷积、多尺度特征提取与混合)
      • 细粒度结构细节的恢复(loss 设计)
      • 深度估计和其他任务的联合学习(语义分割)
    • 方法
      • 网络主要由三个部分组成:提取多尺度特征的编码器,自适应的特征混合模块、残差金字塔解码器
      • 结构敏感的残差金字塔网络
        • 方法的编码器用于提取多尺度的图像特征 { F e x i } i = 0 L \{\mathbf F_{ex}^i\}_{i=0}^L {Fexi}i=0L
        • 和 SOTA 方法一样,本文使用 SENet 作为编码器的骨干网络,该网络调整了不同通道的特征的权重,提取的特征更加有效,给定输入图像大小为 W × H W \times H W×H 特征图对应的分辨率为 [ W 2 i , H 2 i ] [\frac{W}{2^i},\frac{H}{2^i}] [2iW,2iH] ,特征图中包含了高层的语义信息和底层的细节信息,这些多尺度的特征图被同时输入到特征混合模块中,得到混合的特征金字塔 FFP,FFP 中的特征图表示为 { F f s i } i = 0 L \{\mathbf F_{fs}^i\}_{i=0}^L {Ffsi}i=0L,其中的 F f s i \mathbf F_{fs}^i Ffsi 表示混合特征金字塔的第 i 层对应的混合特征图
        • 在解码器中,和之前的顺序上采样预测网络不同,本文通过残差金字塔渐进地预测多张深度图,这些深度图粒度由粗到细,金字塔顶层的 [ W 32 , H 32 ] [\frac W {32}, \frac H {32}] [32W,32H] 大小的预测结果作为初始的场景布局结构,使用 1 × 1 1 \times 1 1×1 卷积减少特征图 F e x L \mathbf F_{ex}^L FexL 中的通道数量,得到和 F f s L \mathbf F_{fs}^L FfsL 相同通道数的特征图,二者拼接之后,用一个残差块利用拼接的特征图预测大小为 [ W 2 L , H 2 L ] [\frac W {2^L},\frac H {2^L}] [2LW,2LH] 的深度图 D L \mathbf D^L DL
      • 残差金字塔解码器
        • 残差金字塔解码器通过粗粒度到细粒度的方式渐进地灰度场景的层次结构,预测不同尺度的深度图,低分辨率的深度图描绘的是全局场景布局结构信息而高分辨率的深度图则更多地描述局部细节信息
        • 本文在每一层不是预测密集的深度图,而是在金字塔解码器的每一层中预测残差图,残差图和更高一级预测的深度图集成后用于预测得到优化的当前尺度的深度图,该功能通过残差优化模块 RRM 实现
        • RRM 中,残差深度图 D r e s i \mathbf D_{res}^i Dresi 通过利用混合的特征 F f s i \mathbf F_{fs}^i Ffsi 得到,该特征图和上采样的更高层深度图向家后,利用一个三个卷积层组成的残差块处理向家的结果,对预测结果优化,输出第 i 尺度的特征图 D i \mathbf D^i Di
        • 本文网络中的残差结构使得每个尺度能有效的表示场景细节和层次化优化的场景结构,利用残差金字塔解码器还能够有效保留全局的场景布局信息
      • 适应密集特征混合
        • 由于池化和步长卷积的操作,CNN 中损失了许多的低层次的视觉特征,因此解码器难以恢复低级的结构细节信息,但是在估计的过程中低级和高级的特征在所有层都是很关键的,因为残差图包含了对全局场景结构的细节信息
        • 为了保留足够的信息用于残差图的预测,本文提出了适应密集特征混合模块 ADFF,模块由 L 个多尺度混合模块 MFF 组成,预测得到 L 张混合特征图,特征图由混合的特征金字塔组成,最终用于残差预测
        • 在每一层中,MFF 适应地选择所有特征尺度中对估计深度图作用最大的特征,本文主要使用 【Hu 2019】提出的 MFF 模块,L 个特征图 { F e x i } i = 1 , . . . , L \{\mathbf F_{ex}^i\}_{i=1,...,L} {Fexi}i=1,...,L 首先被调整为当前尺度的分辨率(双线形插值),再利用残差优化块进行优化,优化的特征图拼接后输入一个卷积层用于降低通道数量
      • 损失函数
        • 为了有效训练残差金字塔网络,通过计算深度图 D i \mathbf D^i Di 和真实指 G i \mathbf G^i Gi 之间的差异用于损失函数,再将每个尺度的损失=组合
        • 对于每个尺度,本文使用 【Hu 2019】 提出的损失函数, L = ∑ i = 1 L l d e p t h i + l g r a d i + l n o r m a l i L=\sum_{i=1}^L l_{depth}^i+l_{grad}^i+l_{normal}^i L=i=1Lldepthi+lgradi+lnormali ,其中的 l d e p t h i l_{depth}^i ldepthi 表示像素及的深度值差异, l g r a d i l_{grad}^i lgradi 是梯度损失,用于衡量边缘区域的误差, l n o r m a l i l_{normal}^i lnormali 则进一步对细粒度细节进行优化
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值