CVPR2023 | 轻量高效的自监督深度估计框架Lite-Mono

最新推荐文章于 2024-07-10 21:42:27 发布

小P学长

最新推荐文章于 2024-07-10 21:42:27 发布

阅读量968

点赞数

分类专栏：小P学长编程分享文章标签：深度学习人工智能机器学习

原文链接：https://zhuanlan.zhihu.com/p/616672642

版权

小P学长编程分享专栏收录该内容

116 篇文章 20 订阅

订阅专栏

专栏有分享单目深度估计自训练源码～

自监督学习近一年来可谓是计算机视觉的大热门，今天向大家分享一篇来自 CVPR 2023 的论文『Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth Estimation』，介绍一个轻量高效的自监督深度估计框架Lite-Mono。

作者：Ning Zhang, Francesco Nex, George Vosselman, Norman Kerle
单位：University of Twente
收录：CVPR 2023
论文：https://arxiv.org/abs/2211.13202
代码：https://github.com/noahzn/Lite-Mono

01摘要

自监督深度估计在训练时不需要ground truth标签，在近些年引起了学者们的关注。许多已有模型的准确率受益于使用大型的backbones骨干网络，但是代价是模型也变得很大。

本篇论文结合CNNs和Transformers的优点设计了一个轻量级的模型Lite-Mono，该模型主要包含两个模块：CDC连续空洞卷积（Consecutive Dilated Convolutions）模块，用于提取增强的多尺度局部特征；以及LGFI局部-全局特征交互（Local-Global Features Interaction）模块 ，用于编码长距离的全局特征。

实验显示Lite-Mono在KITTI数据集上的准确率大大超过了Monodepth2，但参数量少了约80%。该模型可以被部署在边缘计算设备上，如Jetson Xavier。

02 主要贡献

1. 提出了一个新的轻量级的自监督深度估计网络Lite-Mono。该模型在模型尺寸以及FLOPs的有效性得到了验证。

2. 所提出的模型在KITTI数据集上和其他一些较大的模型进行了比较，并以最少的参数量取得了有竞争力的准确度。模型的泛化能力也在Make3D数据集上得到了验证。此外，本文还讨论了不同设计选择的有效性。

3. 模型的运行速度在NVIDIA TITAN Xp显卡以及Jetson Xavier平台上进行了测试，取得了模型复杂度和运行速度间的良好平衡。

03 Lite-Mono 框架介绍

图2显示了Lite-Mono的整体框架。DepthNet深度网络是一个编码器解码器结构用于估计深度，PoseNet姿态网络用来估计相邻单目帧的相机运动。DepthNet由4个阶段组成，使用CDC模块和LGFI模块提取丰富的层级特征。这两个模块的详细介绍请参见图3。

3.1 设计动机和选择

增强的局部特征：使用较浅的网络可以有效减小模型尺寸，但是随之带来的问题就是：模型的感受野非常小。受空洞卷积的启发，本文使用堆叠的CDC连续空洞卷积（Consecutive Dilated Convolutions）模块使网络在不引入额外可训练参数的前提下，提升网络的感受野。

低计算量的全局特征：增强的局部特征不足以学习输入的全局表示，因此本文借助Transformers来建模长距离信息。最初的Transformer中的多头自注意力模块的计算复杂度和特征维度呈线性关系，难以用它来设计轻量级的模型。本文的LGFI模块采用交叉协方差在特征的通道维度计算注意力，因此计算的内存复杂度和时间复杂度均降低了。

3.2 DepthNet深度网络

编码器：Lite-Mono 在4个阶段聚集多尺度特征。当输入图像的尺寸是H×W×3时，首先经过卷积主干，并使用一个3×3卷积来降采样。接着使用2个stride为1的3×3卷积来提取图像特征，特征图尺寸为H/2 × W/2 × C1。在第2阶段，特征和池化的3通道输入图像串联起来以减少空间信息的损失，并使用一个stride为2的3×3卷积下采样，得到特征图尺寸为H/4 × W/4 × C2。然后特征经过堆叠的CDC模块和LGFI模块学习丰富的特征表示。第二和第三阶段的降采样阶段同时串联来自之上一阶段的降采样后的特征。这样的设计和ResNet的残差连接类似，可以使模型提升对跨阶段信息的利用。类似地，特征图经过第3阶段和第4阶段，并分别得到尺寸为H/8× W/8× C3和H/16 × W/16 × C4的特征图。

连续空洞卷积（CDC）：该模块利用空洞卷积提取多尺度局部特征。不用于一些论文中使用并联的空洞卷积层，本文在同一阶段使用连续多个空洞卷积层来提取丰富的多尺度信息。