每天一篇论文338/365 PAD-Net：多任务引导预测与精馏网络的同步深度估计和场景分析

最新推荐文章于 2024-06-23 09:35:00 发布

流浪机器人

最新推荐文章于 2024-06-23 09:35:00 发布

阅读量1.8k

点赞数 2

分类专栏：每天一篇论文365

本文链接：https://blog.csdn.net/qq_26623879/article/details/104603713

版权

每天一篇论文365 专栏收录该内容

146 篇文章 73 订阅

订阅专栏

PAD-Net: Multi-Tasks Guided Prediction-and-Distillation Network for Simultaneous Depth Estimation and Scene Parsing

PAD-Net：多任务引导预测与精馏网络的同步深度估计和场景分析

摘要

深度估计和场景解析是视觉场景理解中两个特别重要的任务。本文针对联合CNN中的深度估计和场景解析问题进行了研究。该任务通常被视为一个深度多任务学习问题。与以往的直接优化多任务的方法不同，本文在给定输入训练数据的情况下，提出了一种新的多任务导向预测蒸馏网络（PAD网），该网络首先预测一组低水平到高水平的中间辅助任务，然后，这些中间辅助任务的预测通过我们提出的最终任务的多模态蒸馏模块作为多模态输入。在联合学习过程中，中间任务不仅起到了监督学习的作用，使学习过程更具鲁棒性，而且为最终任务的改进提供了丰富的多模态信息。针对深度估计和场景分析任务，对两个具有挑战性的数据集（即NYUD-V2和 Cityscapes）进行了广泛的实验，证明了该方法的有效性。

贡献

1们提出了一种新的多任务导向预测蒸馏网络结构，用于同时进行深度估计和场景分析。它产生一组中间辅助任务，为学习目标任务提供丰富的多模态数据。虽然padnet只接受RGB数据作为输入，但它能够结合多模式信息来改进最终任务。
2.我们设计和研究了三种不同的多模蒸馏模块，用于深度多模数据融合，我们认为这也可以应用于其他场景，如多尺度深度特征融合。
3.第三，对具有挑战性的NYUD-V2和城市景观数据集进行了大量实验，证明了该方法的有效性。

方法

本文将一个输入图像通过CNN网络特征蒸馏器提取不同任务所需要的特征，用于训练各种不同的任务
1.网络整体结构
在这里插入图片描述
PAD-Net 由四个主要部件组成。
首先，前端全卷积编码器产生深层特征。
第二个是中间多任务预测模块，它使用前一个组件中的深层特征生成中间预测。
第三，多模式蒸馏模块，用于整合中间预测的有用多模式信息，以改进最终任务。
第四，解码器使用提取的信息进行深度估计和场景分析。PAD网络的输入是训练和测试期间的RGB图像，最终输出是深度和语义解析图。在训练过程中，使用地面真值标签进行场景分析、深度估计和其他两个中间任务，即表面法向估计和轮廓预测。
虽然使用了四种不同的监督，但我们不需要额外的注释工作，因为表面法向和轮廓可以分别从深度和语义标签直接推断出来。
2.深度多任务预测
利用来自前端CNN的深度特征，我们执行反卷积操作来生成四组特定于任务的特征图。主要深度估计和场景解析任务采用N通道特征，其他两个辅助任务采用N/2通道特征。四个任务的特征图分辨率相同，为前端特征图分辨率的2倍。然后单独的卷积运算是生成相应四个任务的分数图。通过双线性插值，得到的分数图为输入RGB图像分辨率的1/4。增加了四种不同的损失函数，用于通过重新缩放的地面真值图学习四种中间任务。值得注意的是，中级多任务学习不仅为优化前端CNN提供了深入的监督，而且有助于提供有价值的多模式预测，这些预测将进一步用作最终任务的输入。
3.深度多模型蒸馏器
如前所述，深度多模蒸馏模块融合来自每个特定最终任务的中间预测的信息。它旨在有效利用相关任务中间预测的补充信息。为了实现这一目标，在总体框架下，使用任何蒸馏方案都可能是灵活的。在本文中，设计了三种不同的模块设计
在这里插入图片描述
4.Decoder Network Structure
对于任务特定的译码器，使用两个连续的反卷积层对提取的特征图进行上采样，以进行像素级预测。由于提取的特征映射的分辨率为输入RGB图像的分辨率的1/4，因此每个反褶积层2的分辨率都会增加一倍，从而将输出通道的数量减少一半。最后，使用卷积运算生成每个最终任务的分数图。

D.实验
为了证明所提出的同时进行深度恢复和场景分析的方法的有效性，我们对提供深度和语义标签的两个公开可用的基准数据集进行了实验，包括一个室内数据集NYU Depth V2（NYUD-V2）和一个室外数据集cityscape。下面我们将详细介绍我们的实验评估。1.场景估计和深度预测准确度。nyud-v2数据集上深度预测和40类场景解析结果的定量示例。第二行和第四行分别是估计深度图和拟议PAD网络的场景分析结果。

在这里插入图片描述

2.深度预测准确度
在这里插入图片描述
3.场景估计实验结果

在这里插入图片描述

流浪机器人

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
每天一篇论文338/365 PAD-Net：多任务引导预测与精馏网络的同步深度估计和场景分析

PAD-Net: Multi-Tasks Guided Prediction-and-Distillation Network for Simultaneous Depth Estimation and Scene ParsingPAD-Net：多任务引导预测与精馏网络的同步深度估计和场景分析摘要深度估计和场景解析是视觉场景理解中两个特别重要的任务。本文针对联合CNN中的深度估计和场景解析问...
复制链接

扫一扫

专栏目录