ACM MM'21 | 超轻量8.5M！更高效的RGB-D显著性检测模型DFM-Net

最新推荐文章于 2024-02-26 20:27:20 发布

3Ｄ视觉工坊

最新推荐文章于 2024-02-26 20:27:20 发布

阅读量1.3k

点赞数

文章标签：计算机视觉机器学习人工智能深度学习大数据

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

自深度传感器的普及以来，RGB-D显著物体检测（Salient object detection，SOD）任务成为热门研究主题[1]，因为深度图蕴含的额外空间信息能够作为补充线索来实现更鲁棒的检测。然而，现有的RGB-D SOD模型难以兼顾效率和精度，不便于移动设备的场景应用。

本文指出深度图质量是影响检测精度的关键因素，基于该观察，提出一种深度图质量启发的特征控制（Depth quality-inspired feature manipulation，DQFM）过程，它可以根据深度图质量过滤深度特征，有效提升模型精度，并且具有轻量高效的特性。

论文链接：

https://arxiv.org/pdf/2107.01779.pdf

代码：

https://github.com/zwbx/DFM-Net

自深度传感器的普及以来，RGB-D显著物体检测（Salient object detection，SOD）任务吸引了越来越多学者的研究兴趣[1]。然而，现有的RGB-D SOD模型难以兼顾效率和精度，不便于移动设备的部署。作者指出深度图质量是影响检测精度的关键因素，基于该观察，提出一种深度图质量启发的特征控制（Depth quality-inspired feature manipulation，DQFM）过程，它可以根据深度图质量过滤深度特征，有效提升模型精度，并且具有轻量高效的特性。

此外，还设计了轻量编码器-解码器框架，包括定制深度骨干（Tailored depth backbone，TDB）和两阶段解码器（Two-stage decoder）以进一步提升模型效率。最后，将DQFM嵌入到该框架中构建出名为DFM-Net的高效RGB-D SOD模型。大量实验结果表明，即使与非轻量模型对比，DFM-Net的精度也达到了最先进的水平，同时其在CPU上的推理耗时为140ms（约为现有最快模型速度的2.2倍），模型体积仅有8.5Mb（约为现有最轻量模型的14.9%）。

一、引言

显著目标检测（SOD）旨在定位吸引人类视觉注意力的区域。一开始多数方法仅仅使用RGB图像作为输入检测显著物体，在复杂的场景（比如杂乱或低对比度的背景）中不可避免地会遇到挑战。

随着深度传感器的广泛使用，RGB-D SOD渐渐成为热门研究主题，因为深度图蕴含的额外空间信息能够作为补充线索来实现更鲁棒的检测。同时现在很多移动设备已经能够获取深度图，比如最新的智能手机Huawei Mate 40 Pro、iPhone12 Pro、Samsung Galaxy S20+，这为RGB-D SOD任务开辟了新的应用场景。

不幸的是，现有方法时间空间开销仍然较大，不便于应用在移动设备和真实场景中。虽然最近出现了一些轻量方法如PGAR[2]、A2dele[3]，但这些方法精度与非轻量先进模型仍有较大差距，效率仍有提高的空间。如何进一步提升模型效率并保持优越的精度，是一个巨大的挑战。

动机：深度图的不稳定质量是影响RGB-D SOD精度的关键因素，现有多数方法对该问题并没有针对性地进行处理，因为直接对深度图自身质量进行评估是比较困难的。虽然已有少部分工作（如D3Net[4]等方法）注意到该问题，但这些方法并不高效，难以构建轻量模型。

作者观察到高质量的深度图往往能够精准地对齐相应的RGB图像，这一现象被称为“边缘对齐”（Boundary alignment，BA）。通过数据统计，这一观察得到了证实。作者认为可将“边缘对齐”做为深度图质量的良好指标，由此提出了质量启发的特征控制（DQFM）过程。DQFM背后的直觉是，如果深度图质量不佳，就赋予其特征一个较低的加权系数，有效地避免噪声和误导性的深度图特征，以此来提升检测精度。同时作者也提出深度整体注意力来增强DQFM。最后，作者构建了一个编码器-解码器框架（包含定制的深度骨干网络和两阶段解码器），并将DQFM嵌入到该框架以提升其精度，得到高效RGB-D SOD模型——DFM-Net。本方法主要贡献为：

· 提出深度图质量启发特征控制（DQFM）过程，在跨模态融合中显式地控制、增强深度特征，有效的提高了模型的检测精度。

· 将DQFM与定制深度骨干网络和两阶段解码器结合，提出了轻量RGB-D SOD模型DFM-Net(Depth Feature Manipulation Network)。

· 对比15个先进模型，DFM-Net能够达到优越的精度，同时其在CPU上的推理耗时为140ms（约为现有最快模型速度的2.2倍），模型体积仅有8.5Mb（约为现有最轻量模型的14.9%）。

二、方法概述

上图为DFM-Net结构图，网络沿用经典的编码器-解码器结构。本文方法由两个主要部分组成：

· 提出的深度图质量启发的特征控制（DQFM）过程。

· 轻量编码器-解码器框架。

轻量编码器-解码器框架即上图DFM-Net去掉DQFM后的部分，是一个独立完整的端到端轻量RGB-D SOD网络。其模型体积仅为8.41Mb，在本文中作为实验部分的基线网络。该框架包括RGB骨干网络（MobileNet-V2，6.9Mb）、定制的深度图骨干网络（Tailored depthbackbone， TDB）以及两阶段解码器（Two-stage decoder）。定制的深度图骨干网络基于MobileNet-V2的基础模块（Inverse residual block，IRB）重新构建，大小仅为0.9Mb，用于提取深度图特征。两阶段解码器包含预先融合（pre-fusion）和完全融合（full-fusion）部分，预先融合可压缩特征的维度和层级以提升效率。关于框架的具体设置参见论文。

深度图质量启发的特征控制（DQFM）可作为门控嵌入至上述框架构成本文提出的DFM-Net。DQFM非常高效，其体积仅为0.05Mb，但可提升模型在6个数据集上平均1.7%的S-measure精度。特别是对于SIP数据集，其提升达到了3.4%。下面介绍DQFM的详细构造。

深度图质量启发的特征控制（DQFM）

DQFM包含深度图质量启发加权（Depth quality-inspired Weighting，DQW）和深度整体注意力（Depth holistic attention，DHA）。DQW预测的加权项是一个标量，决定了“多少比例”的深度特征的参与融合。DHA预测的加权项（是层次的特征图大小）是一个空间注意图，决定关注深度特征的“哪些区域”。通过与深度特征进行连续相乘实现特征控制。

深度图质量启发加权（DQW）

受上述章节所述"边缘对齐"现象的启发，作者期望能够利用这一观察，使网络利用底层特征自适应地来评估深度图质量，并由此动态调整深度图特征融合时的比例作者提出以下公式量化“边缘对齐”程度：

其中表示全局平均池化操作，表示像素级乘法。为了使对轻微的边缘偏移具有鲁棒性，作者选择在多尺度上计算，并将结果串联起来，生成一个增强特征量。最后将输入进多层感知机中预测出。

其中表示一个两层感知器。末端为Sigmoid激活函数，使输出值限制在0-1之间。值得注意的是，是一个5维的向量，最后在通道维度分解产生5个 (i=1,…,5)，在不同的层级赋予深度特征不同的加权比例。

下方的可视化图展示了DQW的表现，同时对比了使用/不使用DQW的情况。看到对于质量较好的深度图输入，DQW预测的均值会更大，反之亦然。这可以解释DQW的工作机制：当深度图质量较好的时候，网络倾向于利用深度图的信息做出预测；当深度图质量较差，网络则更多地利用RGB特征。

深度整体注意力（DHA）

深度整体注意（DHA）的目的是在空间维度上增强深度特征，以作为DQW的辅助产生协同作用。如上图所示，作者首先利用深度特征中最深层特征来粗略定位深度图中的显著区域，然后结合浅层的RGB和深度特征来重新校准该定位。为了更好地模拟深层和浅层特征之间的长程依赖关系，同时保持效率，作者采用下采样和扩张卷积作为优化操作来快速增加感受野。考虑性能和效率之间的权衡，共进行两次重新校准得到。最后，通过对的下采样得到了5个深度整体注意图作为深度特征各个层级的空间域增强项。

下方展示了的可视化图，同时对比了使用/不使用DHA的情况。可以看到倾向于突出边缘区域，而则更多地关注扩张的整个物体。通过乘以注意力图，深度特征中的背景噪音能够得到一定程度地抑制。

三、实验

本文在NJU2K、NLPR、STERE、RGBD135、LFSD和SIP数据集上进行了实验，对比了15个前沿算法模型。详细实验设置请参照原论文。

3.1 可视化结果

提出的的方法DFM-Net与现有先进方法的可视化结果比较。

3.2 标准评估结果

考虑到不能期望DFM-Net在所有数据集表现均超越现有非轻量方法，作者将DFM-Net中Mobilenet-V2替换为ResNet34，产生了性能更强大的DFM-Net*，以便于和非轻量模型进行比较（该文章考虑以100Mb为是否轻量的分界线）。下图是与15个先进方法的标准评估比较结果对比。DFM-Net在模型大小和CPU推理速度方面都取得了新的记录，其精度超越现有轻量级方法，即使是与非轻量方法比较，其精度也具有相当的竞争力。而DFM-Net*则实现了更高的精度，并且在模型体积和推理速度表现超越现有非轻量方法。

为了更好展示DFM-Net的优越性，作者对DFM-Net在SIP数据集（由手机拍摄）上的实验结果进行了可视化。其中横轴表示CPU上的推理速度，纵轴表示准确率maximum F-measure（越大越好），圆形图例面积表示模型体积。可以看到，DFM-Net在推理速度、模型大小、准确率上的表现均超过了以JL-DCF[5]为代表的先进方法，特别是在模型体积和推理速度方面与现有方法拉开了较大的差距。

四、总结

本文提出了高效RGB-D SOD模型DFM-Net。其创新之处在于提出了深度图质量启发的特征控制（DQFM）过程，包含深度图质量启发加权（DQW）与深度整体注意力（DHA）两个关键部分。消融实验证明DQFM能够以极小的参数量明显地提升模型性能。除此之外，作者也设计了定制的深度骨干网络和两阶段解码器以进一步提升模型效率。提出的DFM-Net在模型大小和CPU推理速度方面取得了最佳表现，并且其精度也达到了非轻量模型的先进水平。未来可尝试使用DQFM提升其他相关任务模型的性能。

参考:

[1] Tao Zhou, Deng-Ping Fan, Ming-Ming Cheng, Jianbing Shen, and Ling Shao. 2020. RGB-D Salient Object Detection: A Survey. Computational Visual Media 7

(2020), 37–69.

[2] Shuhan Chen et al. 2020. Progressively Guided Alternate Refinement Network for RGB-D Salient Object Detection. In ECCV. 520–538.

[3] Yongri Piao, Zhengkun Rong, Miao Zhang, Weisong Ren, and Huchuan Lu. 2020. A2dele: Adaptive and Attentive Depth Distiller for Efficient RGB-D Salient Object Detection. In CVPR. 9060–9069.

[4] Deng-Ping Fan, Zheng Lin, Zhao Zhang, Menglong Zhu, and Ming-Ming Cheng. 2020. Rethinking RGB-D salient object detection: Models, datasets, and large-scale benchmarks. IEEE TNNLS (2020).

[5] Keren Fu, Deng-Ping Fan, Ge-Peng Ji, Qijun Zhao, Jianbing Shen, and Ce Zhu. 2021. Siamese network for rgb-d salient object detection and beyond. IEEE TPAMI (2021).

作者介绍

张文博，四川大学计算机学院研究生，研究方向为显著性检测，指导老师为傅可人副研究员。其研究成果"Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection"被国际顶级多媒体学术会议ACM MM 2021会议收录。

Illustrastion by Marina Mogulskaya from Icons8

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。